CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN MULTIDOKUMEN
FADILA ANDRE MULYANTO
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Cross Language Question Answering System Menggunakan Pembobotan Heuristic dan Multidokumen adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2013 Fadila Andre Mulyanto NIM G64090033
ABSTRAK FADILA ANDRE MULYANTO. Cross Language Question Answering System Menggunakan Pembobotan Heuristic dan Multidokumen. Dibimbing oleh SONY HARTONO WIJAYA. Manusia cenderung bertanya ketika ingin mendapatkan suatu informasi dan terkadang mengalami kendala saat informasi yang ada berbeda dengan bahasa yang dikuasai. Cross Language Question Answering System (CL-QAS) adalah suatu sistem temu kembali informasi yang menggunakan pertanyaan sebagai query dan jawaban sebagai output dengan fitur alih bahasa. Pada penelitian ini, dikembangkan sebuah CL-QAS dengan dokumen bahasa Inggris dan query bahasa Indonesia. Keluaran dari sistem berupa sebuah jawaban yang akan dihitung dengan metode pembobotan heuristic dan multidokumen. Waktu rata-rata yang diperlukan oleh sistem untuk memperoleh jawaban relatif kecil yakni sebesar 3.03 detik. Akurasi ketepatan jawaban yang diperoleh juga cukup baik untuk kata tanya SIAPA (100%), KAPAN (100%), DIMANA (100%), dan BERAPA (90%). Kata Kunci: multidokumen, Question Answering System, temu kembali informasi
ABSTRACT FADILA ANDRE MULYANTO. Cross Language Question Answering System Using Heuristic and Multi-Document Weighting Method. Supervised by SONY HARTONO WIJAYA. People tend to ask when they need to get some information. This often raises a difficulty whenever available information is not in same the language with the person understands or speaks. Cross Language Question Answering System (CLQAS) is an information retrieval system that is able to handle this kind of situation. It accepts a question query as the input and outputs the answer in the translated language. In this study, CL-QAS is developed that takes query in Indonesian language and answers in English. The system output is calculated by weighting heuristic and multi-documents. The average time to produce answer is quite fast, i.e. 3.03 seconds. The system accuracy is good considering for the following queries: SIAPA (100%), KAPAN (100%), DIMANA (100%), and BERAPA (90%). Keywords: information retrieval, multi-documents, Question Answering System.
CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN MULTIDOKUMEN
FADILA ANDRE MULYANTO
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Penguji: Ir Julio Adisantoso, MKomp Aziz Kustiyo, SSi, MKomp
Judul Skripsi: Cross Language Question Answering System Menggunakan Pernbobotan Heuristic dan Multidokurnen : Fadila Andre Mulyanto Nama : G64090033 NIM
Disetujui oleh
Sony Hartono Wijaya, SKorn MKorn
Pernbirnbing
Diketahui oleh
Tanggal Lulus:
2 0 AUG 2013
Judul Skripsi : Cross Language Question Answering System Menggunakan Pembobotan Heuristic dan Multidokumen Nama : Fadila Andre Mulyanto NIM : G64090033
Disetujui oleh
Sony Hartono Wijaya, SKom MKom Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom Ketua Departemen
Tanggal Lulus:
PRAKATA Alhamdulillahirobbil’alamin, segala puji dan syukur penulis panjatkan ke hadirat Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul Cross Language Question Answering System Menggunakan Pembobotan Heuristic dan Multidokumen. Penulis menyadari bahwa tugas akhir ini tidak akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini penulis ingin mengucapkan terima kasih kepada: 1 Ayah dan Ibu tercinta, Bapak Putut dan Ibu Sri, adikku yang saya sayangi Gita, yang selalu memberikan doa, nasihat, semangat, dukungan, dan kasih sayang yang luar biasa kepada penulis sehingga dapat menyelesaikan perkuliahan. 2 Bapak Sony Hartono Wijaya, MKomp selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran, bimbingan serta dukungan dalam penyelesaian tugas akhir. 3 Bapak Hendra Rahmawan, MT selaku dosen pembimbing akademik. Terima kasih atas bimbingan yang telah diberikan selama penulis melakukan kegiatan perkuliahan. 4 Teman-teman satu bimbingan skripsi Sapariansyah, Yuzar Marsyah, Ozi Priawadi, Ginanjar dan Ramadhan terima kasih atas kebersamaan dan semangatnya dalam menyelesaikan tugas akhir. 5 Teman-teman satu bimbingan akademik Rizkia Hanna, Iswarawati, Noer Fitria, Anisaul Muawwanah dan rekan-rekan Ilkomerz 46 terima kasih atas bantuannya dalam menjalani kegiatan perkuliahan. 6 Taufik Hidayat, Tommy Sepadinata, Benedictus Adi, Jajang Somantri, Wayan Sumerta, Bryan Dwi, dan sahabat Lorong 2 C2, terima kasih atas untuk dukungan semangat dan motivasi bagi penulis. 7 Khasi Asmarani Lestari yang senantiasa memberikan semangat dan doa kepada penulis selama kegiatan perkuliahan. 8 Bu Rahma, Bu Okta, Pak Ridwan, Pak Syaiful, dan seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penulis melaksanakan penelitian dan perkuliahan. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukkan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2013
Fadila Andre Mulyanto
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
2
Pemrosesan Offline
2
Pemrosesan Online
3
Evaluasi
4
HASIL DAN PEMBAHASAN
4
Koleksi Dokumen (Korpus) Pengujian
4
Praproses dan Indexing Dokumen
5
Pemrosesan Query
6
Perolehan Dokumen Teratas
6
Perolehan Passages
7
Pembobotan Passages
8
Ekstraksi Jawaban dan Perhitungan Jarak
8
Pembobotan Multidokumen
9
Hasil Percobaan
9
SIMPULAN DAN SARAN
13
Kesimpulan
13
Saran
14
DAFTAR PUSTAKA
14
LAMPIRAN
15
RIWAYAT HIDUP
21
DAFTAR TABEL 1 2 3 4 5
Daftar kata tanya dan named entity Contoh hasil pemrosesan query Kandidat jawaban sebelum pembobotan multidokumen Kandidat jawaban setelah pembobotan multidokumen Perbedaan sistem
3 6 9 9 9
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Gambaran umum sistem 3 Struktur tag XML dokumen 4 Passage yang telah diberikan tag 5 Isi konfigurasi Sphinx 5 Contoh stopwords dari http://www.ranks.nl.resources/stopwords.html 6 Hasil sepuluh dokumen teratas 7 Algoritme pembobotan BM25 7 Hasil perolehan passage 7 Hasil ekstraksi jawaban 8 Grafik perbandingan waktu eksekusi 10 Grafik hasil percobaan untuk kata SIAPA 11 Grafik hasil percobaan untuk kata KAPAN 11 Grafik hasil percobaan untuk kata DIMANA 11 Grafik hasil percobaan untuk kata BERAPA 12 Grafik hasil percobaan semua kata tanya 12 Kandidat jawaban dengan metode heuristic 13 Kandidat jawaban dengan metode heuristic ditambah multidokumen 13
DAFTAR LAMPIRAN 1 2 3 4 5
Waktu (detik) eksekusi sistem untuk memperoleh jawaban akhir Tabel hasil kata tanya SIAPA Tabel hasil kata tanya KAPAN Tabel hasil kata tanya DIMANA Tabel hasil kata tanya BERAPA
15 17 18 19 20
1
PENDAHULUAN Latar Belakang Masalah yang sering terjadi adalah terkadang informasi yang dibutuhkan berasal dari dokumen berbahasa asing (bahasa yang berbeda dengan query yang diberikan). Sedangkan Question Answering System (QAS) pada umumnya bersifat mono language yang hanya menemukembalikan informasi dari dokumen yang menggunakan bahasa yang sama dengan query. Cross Language Question Answering System (CL-QAS) adalah pengembangan QAS yang dapat menutupi kekurangan sifat mono language dari QAS dengan menambahkan fungsi penerjemah bahasa terhadap query-nya. Kenyataannya banyak pengguna yang tidak memiliki kemampuan khusus untuk menerjemahkan query ke dalam setiap bahasa yang sesuai dengan dokumen yang tersedia. Jika CL-QAS diberikan input query berupa pertanyaan dalam bahasa tertentu (misal, bahasa Indonesia), ia mampu mengembalikan jawaban dari dokumen berbahasa lain (misal, bahasa Inggris). Sehingga informasi dapat diperoleh dari berbagai dokumen beda bahasa dengan menggunakan satu bahasa yang dikuasai oleh pengguna. Penelitian tentang QAS dalam perkembangannya sudah diimplementasikan oleh Ballesteros dan Li (2007) yang digunakan untuk bahasa Inggris dan Mandarin. Dalam penelitian tersebut digunakan pembobotan heuristic dan syntactic untuk mengidentifikasikan kandidat kalimat yang relevan. Cidhy (2009) mengimplementasikan penggunaan pembobotan heuristic yang dilakukan Ballesteros dan Li (2007) dalam dokumen berbahasa Indonesia. Subu (2012) mengimplementasikan CL-QAS menggunakan pembobotan heuristic dan rulebased untuk bahasa Indonesia dan Inggris. Informasi baru muncul setiap saat, jika sebuah website berita dapat menerbitkan lebih dari satu artikel setiap hari, tentunya jumlah dokumen/artikel saat ini sangat banyak dan sangat memungkinkan informasi yang dikandung dalam suatu dokumen memiliki kesamaan dengan dokumen lainnya. Semakin banyak dokumen yang memiliki informasi serupa menunjukkan informasi tersebut semakin penting karena keberadaannya disampaikan secara terus menerus pada dokumen yang berbeda. Murata et al. (2005) mengembangkan metode pembobotan yang menggunakan dokumen lain sebagai bukti informasi tersebut sangat kuat. Diharapkan metode ini mampu meningkatkan akurasi jawaban dari QAS itu sendiri. Mengacu pada penelitian tersebut, penelitian ini akan mengimplementasikan metode heuristic dengan pembobotan multidokumen pada CL-QAS berbahasa Indonesia dan Inggris. Metode heuristic dipilih karena menurut Subu (2012) memberikan hasil lebih baik dibandingkan dengan metode rule-based. Tantangannya adalah mengidentifikasi jawaban dari pertanyaan bahasa Indonesia dengan menggunakan koleksi dokumen berbahasa Inggris serta pemilihan jawaban akhir berdasarkan kemiripan jawaban antar-dokumen. Fokus penelitian ini adalah bagaimana menemukan jawaban sehingga penerjemahan jawaban dari bahasa Inggris ke bahasa Indonesia tidak diperlukan.
2 Perumusan Masalah Semakin banyak informasi yang sama dari berbagai dokumen yang berbeda menunjukkan informasi tersebut semakin penting dan valid. Inilah yang menjadi fokus masalah dari penelitian ini, yakni mencoba menerapkan metode pembobotan yang dikembangkan oleh Murata et al. (2005) pada dokumen bahasa Jepang untuk dokumen bahasa Indonesia. Metode pembobotan multidokumen yang menggunakan dokumen lain sebagai bukti untuk memperkuat sebuah informasi diharapkan mampu meningkatkan akurasi jawaban dari QAS. Tujuan Penelitian 1 2
Tujuan dari penelitian ini ialah: Mengimplementasikan metode pembobotan heuristic dan multidokumen pada CL-QAS. Mengevaluasi kinerja sistem dalam menemukembalikan jawaban yang benar dari setiap kueri pertanyaan Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan kemudahan bagi pengguna dalam memperoleh informasi dan memberikan informasi yang tepat untuk setiap pertanyaan yang diberikan oleh pengguna. Ruang Lingkup Penelitian 1 2 3
Ruang lingkup penelitian ini ialah: Korpus terdiri atas kumpulan dokumen berita berbahasa Inggris dari website IPB (http://news.ipb.ac.id). Kata tanya yang digunakan adalah siapa, di mana, kapan, dan berapa. Kueri pertanyaan dibatasi pada tipe factoid question, yaitu pertanyaan yang memiliki jawaban tunggal.
METODE Metode penelitian yang digunakan dalam penelitian ini disajikan pada Gambar 1. Penelitian ini dilakukan dalam tiga tahap, yaitu pemrosesan offline, pemrosesan online, dan evaluasi hasil percobaan. Pemrosesan Offline Pemrosesan offline terdiri atas tahap pengumpulan dokumen, praproses dokumen, indexing dokumen, dan pembuatan passage. Dokumen yang dikumpulkan adalah dokumen berita yang berasal dari website IPB (http://news.ipb.ac.id). Pada tahap praproses, dilakukan proses parsing dan penghilangan stopwords terhadap koleksi dokumen uji. Daftar stopwords bahasa Inggris diperoleh dari website (http://www.ranks.nl/ resources/stopwords.html).
3
Proses Offline Korpus
Praproses
Penerjemahan Query
Query
Indexing Dokumen
Pembentukan Passages
Top 10 Dokumen
Passages
Praproses Proses Online Hasil
Pembobotan Multi-Dokumen
Perhitungan Bobot Jarak
Top n Passages
Ekstraksi Jawaban
Evaluasi Gambar 1 Gambaran umum sistem Proses indexing dokumen menggunakan open source search server yang bernama Sphinx. Tahap selanjutnya adalah pembentukan passages terdiri atas dua kalimat yang saling berdampingan (overlap). Sebelum dilakukan pembentukan passages terlebih dahulu dilakukan penamaan entitas pada koleksi dokumen pengujian. Penamaan entitas atau tagging dilakukan secara manual. Entitas yang digunakan ialah NAME, ORGANIZATION, DATE, LOCATION, NUMBER, dan CURRENCY. Passages yang terbentuk digunakan pada pemrosesan secara online. Tabel 1 menunjukkan daftar pasangan jenis kata tanya dan named entity yang menjadi penciri dari jawaban yang akan ditemukembalikan. Pemrosesan offline dilakukan agar pemrosesan online dapat lebih cepat. Tabel 1 Daftar kata tanya dan named entity No 1 2 3 4
Kata Tanya Siapa Kapan Dimana Berapa
Named Entity Tag NAME, ORGANIZATION DATE LOCATION NUMBER, CURRENCY
Pemrosesan Online Pemrosesan online adalah proses interaksi langsung secara realtime antara sistem dan pengguna. Query berupa kalimat pertanyaan dimasukkan secara manual oleh pengguna. Tipe pertanyaan diidentifikasi berdasarkan kata tanya yang digunakan sehingga dapat ditentukan named entity yang akan dicari untuk menemukan kandidat jawaban. Kemudian, query tanpa kata tanya digunakan untuk memperoleh 10 dokumen teratas dengan metode pembobotan BM25 yang terdapat pada Sphinx. Setiap passages diambil dari 10 dokumen tersebut. Passage adalah
4 dua kalimat yang saling berdampingan dan telah dibuat pada pemrosesan offline. Pembobotan terhadap passage menggunakan faktor heuristik seperti yang telah dilakukan oleh Ballesteros dan Li (2007). Langkah selanjutnya adalah proses ekstraksi jawaban dari setiap passages teratas dengan mencari tipe entitas yang sesuai dengan pertanyaan. Kemudian dilakukan perhitungan jarak jawaban pada masing-masing passage berdasarkan query pengguna. Tahap terakhir adalah pembobotan multidokumen seperti yang dilakukan oleh Murata et al. (2005) yakni menghitung ulang bobot jawaban yang sama jika terdapat pada beberapa dokumen berbeda. Jawaban dengan bobot tertinggi akan menjadi jawaban akhir. Evaluasi Tahap evaluasi dilakukan secara objektif dari segi: pasangan jawaban dan dokumen serta ketepatan untuk setiap jawaban. Semakin banyak hasil yang benar, tentu kinerja sistem semakin tinggi. Pada query factoid terdapat 4 jenis penilaian, yaitu: 1 Right : jawaban dan dokumen benar. 2 Wrong : jawaban salah. 3 Unsupported : jawaban benar tetapi dokumen tidak mendukung 4 Null : jawaban dan dokumen kosong.
HASIL DAN PEMBAHASAN Koleksi Dokumen (Korpus) Pengujian Setiap dokumen memiliki struktur XML yang sama. Cuplikan dokumen terdapat pada Gambar 2. Tag
yang menjadi root berfungsi membedakan satu dokumen dengan dokumen lainnya. Tag menunjukkan nama dokumen, tag <TITLE> menunjukkan judul dokumen, tag menunjukkan penulis dokumen, dan tag yang menunjukkan isi dokumen. Penamaan entitas (named entity) yang disebut tagging dilakukan pada 182 dokumen uji dengan cara manual. Hal ini dilakukan untuk proses perolehan kandidat jawaban sesuai dengan jenis pertanyaan. Named entity yang digunakan terdiri atas NAME, ORGANIZATION, LOCATION, DATE, CURRENCY, dan NUMBER. Passage akan dibentuk dari dokumen yang telah diberi tag dan disimpan ke dalam DBMS MySQL untuk keperluan pemrosesan online. Contoh passage yang dibentuk dapat dilihat pada Gambar 3. newsipb011110-003 <TITLE> Afternoon Talk: Prospect of Jabon admin ipb TREE Jabon, relatively unheard of…
Gambar 2 Struktur tag XML dokumen
5 This was expressed by Professor of Nutritional Sciences, Bogor Agricultural University (IPB), Prof. Ali Khomsan in the Afternoon Dialogue of RRI , Tuesday (25 / 1) in Bogor. Many factors cause children to suffer from malnutrition, for example, poverty, eating difficulty/low appetite.
Gambar 3 Passage yang telah diberikan tag Praproses dan Indexing Dokumen Langkah pertama yang dilakukan adalah menyimpan korpus ke dalam bentuk DBMS MySQL lalu dilakukan indexing menggunakan Sphinx dengan konfigurasi yang dapat dilihat pada Gambar 4. Hasil indexing digunakan untuk proses pencarian 10 dokumen teratas. Dalam konfigurasi Sphinx, terdapat dua fungsi penting yakni, source dan index. Fungsi source mengatur tipe dokumen yang akan diindeks dan fungsi index mengatur proses indexing itu sendiri. Penjelasan untuk konfigurasi yang digunakan pada Sphinx, yaitu: type, menunjukkan tipe dokumen yang akan diindeks. sql_host, sql_user, sql_pass, sql_db, dan sql_port, menunjukkan konfigurasi DBMS MySQL tempat dokumen disimpan. sql_query, mengatur query yang akan dieksekusi sebagai objek yang akan diindeks. source, menunjukkan fungsi source yang digunakan. path, mengatur lokasi file hasil indexing disimpan. min_word_len, mengatur minimal panjang karakter yang diindeks. charset_type, menunjukkan tipe karakter yang digunakan. stopwords, mengatur lokasi file yang berisi daftar kata buang (stopwords). Contoh daftar kata buang lihat Gambar 5. 1 source mysql { 2 type = mysql 3 sql_host = localhost 4 sql_user = root 5 sql_pass = 6 sql_db = skripsi 7 sql_port = 3306 8 sql_port = 3306 9 sql_query = SELECT id_news, docno, title, author,date_published, body, timestamp FROM news } 10 index skripsi { 11 source = mysql 12 path = C:/sphinx/data/skripsi 13 charset_type = utf-8 14 min_word_len = 3 15 stopwords = C:/sphinx/skripsi/stopwords-en.txt }
Gambar 4 Isi konfigurasi Sphinx
6 a about above after again
against all am an and
any are aren’t as at
be because … you’ll you’re
you’ve your yours yourself yourselves
Gambar 5 Contoh stopwords dari http://www.ranks.nl.resources/stopwords.html Pemrosesan Query Query yang digunakan dalam penelitian ini berupa bahasa alami berbentuk kalimat tanya. Dalam pemrosesan query, proses yang dilakukan adalah menerjemahkan query ke dalam bahasa Inggris menggunakan Microsoft Translator (http://api.microsofttranslator.com/V2/Ajax.svc/Translate). Kemudian mengubah karakter query menjadi huruf kecil, membuang stopwords dalam query, dan melakukan parsing terhadap kalimat tanya dengan memisahkan kata tanya dan kata selain kata tanya (praproses). Hasil pemrosesan dapat dilihat pada Tabel 2. Kata tanya ini digunakan untuk menentukan tipe jawaban yang ditemukembalikan oleh sistem. Tipe jawaban dicirikan dengan named entity yang terdapat pada dokumen. Pada penelitian ini kata tanya yang digunakan dibatasi dalam empat jenis, yaitu siapa, kapan, di mana, dan berapa, sedangkan query selain kata tanya akan digunakan dalam proses perolehan 10 dokumen teratas dengan menggunakan Sphinx, pembobotan heuristic, dan perhitungan jarak antara query dan jawaban. Tabel 2 Contoh hasil pemrosesan query Query Terjemahan (B. Inggris) Kata Tanya Siapa rektor who is the Rector of the who ipb University
Query (praproses) rector university
Perolehan Dokumen Teratas Berdasarkan query yang dimasukkan secara manual oleh pengguna, Sphinx akan melakukan perhitungan untuk menentukan dokumen-dokumen yang terkait dengan query tersebut. Contoh hasil perolehan dokumen dari uji coba query “siapa rektor ipb?” dapat dilihat pada Gambar 6. Pembobotan untuk melakukan pemeringkatan dokumen ialah pembobotan BM25 yang disediakan oleh Sphinx dengan algoritme yang dapat dilihat pada Gambar 7. Setiap token query akan memiliki bobot pada semua dokumen yang akan dijumlahkan untuk mendapatkan keseluruhan nilai BM25 (Fathi 2012). Setelah dijumlahkan, dapat terlihat dokumen yang memiliki bobot relevansi tertinggi berdasarkan query pertanyaan. Sepuluh dokumen teratas akan diambil untuk tahap perolehan passage.
7
Gambar 6 Hasil sepuluh dokumen teratas 1 2 3 4 5 6 7 8 9 10
BM25 = 0 Foreach(keyword in matching keywords) { n = total matching documents (keyword) N = total_documents_in_collection k1 = 1.2 TF = current_document_occurence_count(keyword) IDF = log((N-n+1)/n) / log(1+N) BM25 = BM25 + TF*IDF/(TF+k1) } BM25 = 0.5 + BM25 / (2*num_keywords(query))
Gambar 7 Algoritme pembobotan BM25 Keterangan : N : Total dokumen dalam korpus n : Total dokumen yang memiliki kata dari query TF : Frekuensi term pada dokumen IDF : Inverted indeks dokumen k1 : Positif parameter (1.2) Perolehan Passages Setiap passage dokumen teratas diperoleh dari database karena passage telah dibuat sebelumnya dalam pemrosesan offline sehingga diharapkan hal ini dapat mengurangi waktu komputasi pada pemrosesan online. Contoh hasil passage yang diperoleh dari uji coba query ”siapa rektor ipb?” dapat dilihat pada Gambar 8. Passage yang diperoleh akan diboboti pada tahap pembobotan passage. Entity tag yang terdapat pada passage akan digunakan pada tahap ekstraksi jawaban.
Gambar 8 Hasil perolehan passage
8 Pembobotan Passages Pembobotan terhadap passage dilakukan dengan metode heuristic yang dikembangkan oleh Ballesteros dan Li (2007). Bobot setiap passages akan disimpan dalam variabel heuristic_score(hs) dengan formula: hs = count_match + 0.5×Sm + 0.5×Ord + count_match/W Nilai count_match adalah jumlah hasil pencocokan kata antara query dan passage (wordmatch). Jika nilai count_match kurang dari threshold (t), count_match = 0. Nilai threshold (t) bergantung pada jumlah kata pada query (count_query) dan didefinisikan sebagai berikut: a) jika count_query < 4, maka t = count_query. b) jika 4 <= count_query <= 8, maka t = (count_query/2) + 1. c) jika count_query > 8, maka t = (count_query/3) + 2. Sm menunjukkan seluruh kata antara query dan passage cocok atau tidak (jika cocok maka Sm=1). Ord menunjukkan kata yang cocok pada query dan passage memiliki urutan yang sama atau tidak (jika sama maka Ord=1). W adalah jumlah kata dari passage dengan count_match tertinggi. Sebuah dokumen tentu memiliki lebih dari satu passage (bentuk passage lihat Gambar 8). Passage yang mendapatkan nilai hs>0 akan dikembalikan sebagai top passage dan dipertahankan, sedangkan passage yang mendapatkan nilai hs=0 akan dibuang. Ekstraksi Jawaban dan Perhitungan Jarak Ekstraksi jawaban dilakukan terhadap top passages, nilai jarak (d) antara query dan jawaban diperoleh dengan menghitung selisih antara indeks setiap kata pada vektor query (q1, q2, … , qn) dan indeks kandidat jawaban (j). Nilai n merupakan jumlah kata dari query. Berikut formula perhitungan jarak: n
d(q, j) = ∑ i=1
|qi-j| n
Kandidat jawaban yang diperoleh dapat dilihat pada Gambar 9. Kata pada jawaban diperoleh berdasarkan entity tag, dokumen menunjukkan asal dari jawaban tersebut berasal, dan bobot adalah 1/d (1 dibagi nilai jarak). Pengubahan nilai jarak menjadi bobot dilakukan untuk mengubah persepsi nilai jarak yakni semakin kecil semakin baik. Karena pada tahap berikutnya, persepsi yang digunakan adalah semakin besar semakin baik (persepsi bobot).
Gambar 9 Hasil ekstraksi jawaban
9 Pembobotan Multidokumen Pembobotan multidokumen dikembangkan oleh Murata et al. (2005) untuk menentukan jawaban akhir berdasarkan banyaknya dokumen yang menghasilkan jawaban serupa. Berikut formula Murata et al. (2005): n
(i-1)
∑ 0.3
× wt,d
i=1
Nilai 0.3 adalah konstanta yang digunakan Murata et al. (2005). Sebagai ilustrasi, misal terdapat pertanyaan “Siapakah rektor IPB?”, kemudian kandidat jawaban yang diperoleh dapat dilihat pada Tabel 3. Jawaban dari pertanyaan ini, yaitu “Herry Suhardiyanto”. Namun sistem mengembalikan kandidat jawaban “Yonny Koesmaryono” dengan bobot tertinggi sehingga berpeluang besar menjadi jawaban akhir yang salah. Padahal kandidat jawaban “Herry Suhardiyanto” muncul pada beberapa dokumen berbeda, yaitu dokumen 578, 154, 32, dan 16. Perhitungan ulang bobot dilakukan dengan mengalikan skor kandidat jawaban menggunakan konstanta 0.3(i-1), nilai i menunjukkan jumlah dokumen berbeda yang merujuk pada kandidat jawaban yang sama. Kemudian dilakukan penjumlahan untuk seluruh skor tiap kandidat (wt,d). Dengan mengaplikasikan metode tersebut, maka skor untuk “Herry Suhardiyanto” adalah 4.3 (= 3.2 + 2.8×0.3 + 2.5×0.32 + 2.4×0.33). Hasil skor dapat dilihat pada Tabel 4. Tabel 3 Kandidat jawaban sebelum pembobotan multidokumen Peringkat Kandidat Jawaban Skor ID Dokumen 1 Yonny Koesmaryono 3.3 42 2 Herry Suhardiyanto 3.2 578 3 Prof. Ir. Herry Suhardiyanto 2.8 154 4 Prof. Ir. Herry Suhardiyanto, MSc 2.5 32 5 Herry Suhardiyanto 2.4 16 Tabel 4 Kandidat jawaban setelah pembobotan multidokumen Peringkat 1 2
Kandidat Jawaban Skor Herry Suhardiyanto 4.3 Yonny Koesmaryono 3.3 Tabel 5 Perbedaan sistem
Fungsi Penyimpanan Korpus Indexing Dokumen Penerjemahan Bahasa Metode Pembobotan
Subu (2012) Berbasis file Pembobotan TF-IDF File kamus Heuristic
ID Dokumen 578, 154, 32, 16 42
Sistem Penelitian Berbasis DBMS MySQL Penggunaan tools Sphinx Microsoft Translator Heuristic dan multidokumen
Hasil Percobaan Perbedaan mendasar sistem ini dari sistem Subu (2012) dapat dilihat pada Tabel 5. Penelitian ini menggunakan 182 koleksi dokumen dan diuji menggunakan 40 query pertanyaan yang sama dengan penelitian Subu (2012). Proses evaluasi berdasarkan pada ketepatan pasangan jawaban dan dokumen, penilaian dibedakan
10 menjadi 4 jenis yaitu right, wrong, unsupported, dan null. Hasil percobaan akan dibandingkan dengan penelitian sebelumnya, yakni penelitian Subu (2012). Penyimpanan korpus untuk sistem baru berbasis DBMS MySQL hanya untuk kemudahan proses indexing dokumen dan pengambilan passage. Indexing dokumen menggunakan tools Sphinx yang memberikan perbedaan waktu yang cukup signifikan untuk proses indexing. Penerjemahan bahasa menggunakan kamus online Microsoft Translator untuk memastikan terjemahan bahasa Inggris sesuai dengan query bahasa Indonesia yang diberikan. Metode pembobotan heuristic yang digunakan sama dengan penelitian Subu (2012), sistem baru menambahkan metode pembobotan multidokumen dengan harapan mampu memperbaiki jawaban akhir dari sistem. 1 Perbandingan Waktu Eksekusi Sistem Setiap pertanyaan diujikan sebanyak 3 kali terhadap sistem agar memperoleh waktu eksekusi yang cukup objektif dalam menghasilkan jawaban akhir. Hasil yang cukup signifikan diperoleh dari perbedaan waktu eksekusi sistem Subu (2012) dan sistem ini. Grafik hasil perbandingan dapat dilihat pada Gambar 10. Hasil waktu eksekusi yang diperoleh dapat dilihat pada Lampiran 1. 25.00
20.45
detik
20.00 15.00 10.00 5.00
3.08
3.03
Heuristic
Heuristic + Multidokumen
0.00 Heuristic (Subu 2012)
Metode Pembobotan
Gambar 10 Grafik perbandingan waktu eksekusi 2 Perbandingan Hasil Percobaan Untuk Kata Tanya SIAPA Pembobotan heuristic untuk kata tanya SIAPA menghasilkan presentase ketepatan jawaban untuk kriteria right sebesar 90%, unsupported 0%, wrong 10%, null 0%, sedangkan heuristic dan multidokumen menghasilkan kriteria right 100%, lainnya 0%. Grafik hasil percobaan untuk kata tanya SIAPA dapat dilihat pada Gambar 11. Daftar query dan evaluasinya dapat dilihat pada Lampiran 2. 3 Perbandingan Hasil Percobaan Untuk Kata Tanya KAPAN Pembobotan heuristic dan heuristic ditambah multidokumen untuk kata tanya KAPAN menghasilkan presentase ketepatan jawaban untuk kriteria right sebesar 100% dan lainnya 0%. Grafik hasil percobaan kata tanya KAPAN dapat dilihat pada Gambar 12. Daftar query dan evaluasinya dapat dilihat pada Lampiran 3.
11 100
90
100 Heuristic (Subu 2012) Heuristic Heuristic + Multi-Dokumen
80 60 60 % 40
30
20
10 0 0 0
10 0
0 0
0
right
unsupported
wrong
null
Kriteria Jawaban
Gambar 11 Grafik hasil percobaan untuk kata SIAPA 100
100 100 100 Heuristic (Subu 2012) Heuristic
80
Heuristic + Multi-Dokumen
60 % 40 20 0 0 0
0 0 0
0 0 0
unsupported
wrong
null
0 right
Kriteria Jawaban
Gambar 12 Grafik hasil percobaan untuk kata KAPAN 100
100 100 100 Heuristic (Subu 2012)
80
Heuristic
60
Heuristic + Multi-Dokumen
% 40 20 0 0 0
0 0 0
0 0 0
unsupported
wrong
null
0 right
Kriteria Jawaban
Gambar 13 Grafik hasil percobaan untuk kata DIMANA 4 Perbandingan Hasil Percobaan Untuk Kata Tanya DIMANA Pembobotan heuristic dan heuristic ditambah multidokumen untuk kata tanya DIMANA menghasilkan presentase ketepatan jawaban untuk kriteria right sebesar 100% dan lainnya 0%. Grafik hasil percobaan kata tanya DIMANA dapat dilihat pada Gambar 13. Daftar query dan evaluasinya dapat dilihat pada Lampiran 4.
12 100
90 90 90
Heuristic (Subu 2012) Heuristic
80
Heuristic + Multi-Dokumen 60 % 40 20
10 10 10 0 0 0
0 0 0
0 right
unsupported
wrong
null
Kriteria Jawaban
Gambar 14 Grafik hasil percobaan untuk kata BERAPA 100.0
95.0 97.5 87.5
Heuristic (Subu 2012) Heuristic
80.0
Heuristic + Multi-Dokumen 60.0 % 40.0 20.0 0.0 0.0 0.0
10.0 5.0 2.5
2.5 0.0 0.0
unsupported
wrong
null
0.0 right
Kata Tanya
Gambar 15 Grafik hasil percobaan semua kata tanya 5 Perbandingan Hasil Percobaan Untuk Kata Tanya BERAPA Pembobotan heuristic dan heuristic ditambah multidokumen untuk kata tanya BERAPA menghasilkan presentase ketepatan jawaban untuk kriteria right sebesar 90%, unsupported 0%, wrong 10%, null 0%. Grafik hasil percobaan untuk kata tanya BERAPA dapat dilihat pada Gambar 14. Daftar query dan evaluasinya dapat dilihat pada Lampiran 5. Perbandingan Hasil Percobaan Untuk Semua Kata Tanya Ketepatan jawaban pada pembobotan heuristic dan heuristic ditambah multidokumen untuk semua kata tanya dapat dilihat pada Gambar 15. Pembobotan heuristic menghasilkan presentase tertinggi untuk kriteria right dan wrong sebesar 95% dan 5%, sedangkan heuristic yang ditambah multidokumen menghasilkan kriteria right dan wrong sebesar 97.5% dan 2.5%. Berdasarkan hasil evaluasi yang diperoleh, sistem ini mampu memperoleh jawaban hampir 10 kali lebih cepat dan peningkatan akurasi rata-rata jawaban right sebesar 10% dari Subu (2012) untuk seluruh kata tanya. Hasil yang diperoleh tidak berbeda jauh dengan sistem sebelumnya yakni sistem Subu (2012), terlihat hasil yang akurasi yang diperoleh pada kata tanya KAPAN, DIMANA, dan BERAPA menunjukkan nilai yang sama. Namun, pada kata tanya SIAPA terjadi peningkatan akurasi dari sistem sebelumnya yakni sebesar 60% menjadi 90% untuk sistem baru dengan metode heuristic dan menjadi 100% untuk sistem baru dengan metode heuristic ditambah multidokumen.
13 Peningkatan akurasi dari sistem Subu (2012) dapat dikarenakan perbedaan proses indexing yang merupakan proses untuk memperoleh dokumen relevan terkait query yang diberikan. Struktur kode sistem yang dibuat pada penelitian ini juga berbeda karena perbedaan proses indexing namun memiliki konsep metode yang sama. Percobaan menggunakan metode tambahan yakni pembobotan multidokumen menunjukkan hasil yang positif, hal tersebut dapat dilihat pada hasil kata tanya SIAPA. Metode heuristic dan metode heuristic ditambah multidokumen memperoleh nilai right sebesar 90% dan 100%. Perbedaan ini terjadi pada uji coba query “Siapa Presiden BEM IPB?”, kandidat jawaban yang diperoleh menggunakan metode heuristic dan heuristic ditambah multidokumen dapat dilihat pada Gambar 16 dan Gambar 17. Metode heuristic menghasilkan “Dr. drh. Moh. Agil M. Agr.” sebagai jawaban akhir karena memiliki nilai bobot tertinggi padahal jawaban ini adalah jawaban yang salah (wrong). Pada metode heuristic ditambah multidokumen, pembobotan multidokumen menghitung ulang hasil bobot dari metode heuristic karena terdapat salah satu kandidat jawaban yang sama namun berasal dari dokumen yang berbeda yakni kandidat jawaban “Reza Pahlevi” (lihat Gambar 16). Bobot “Reza Pahlevi” dihitung ulang sehingga hasil yang diperoleh seperti pada Gambar 17. Dengan demikian, sistem memberikan jawaban yang benar (right) untuk kasus query “Siapa Presiden BEM IPB”.
Gambar 16 Kandidat jawaban dengan metode heuristic
Gambar 17 Kandidat jawaban dengan metode heuristic ditambah multidokumen
SIMPULAN DAN SARAN Kesimpulan Hasil dari penelitian ini adalah sebuah Cross Language Question Answering System menggunakan pembobotan heuristic dan multidokumen. Kinerja terbaik diperoleh pada pembobotan heuristic ditambah multidokumen untuk pengujian query pertanyaan menggunakan kata tanya SIAPA, DIMANA, KAPAN dan kurang sempurna pada kata tanya BERAPA. Secara umum hasil jawaban yang diperoleh
14 dan waktu eksekusi yang diperlukan untuk memperoleh jawaban juga lebih baik dibandingkan sistem yang dikembangkan oleh Subu (2012). Saran 1 2 3 4
Saran perbaikan untuk penelitian berikutnya adalah: Penggunaan metode ekstraksi kalimat yang lebih baik untuk kasus nama gelar, singkatan, dan nama situs. Penggunaan kamus penerjemah (translator) lebih dari satu. Penambahan jumlah dokumen dan penggunaan Named Entity Tagger otomatis untuk dokumen bahasa Inggris. Penggunaan metode pembentukan passage yang berbeda (Fathi 2012).
DAFTAR PUSTAKA Ballesteros LA, Li X. 2007. Heuristic and syntactic scoring for cross-language question answering system. Di dalam: Proceedings of NTCIR-6 Workshop Meeting; 2007 Mei 15-18; Tokyo, Jepang. Tokyo (JP): National Institute of Informatics. hlm 230-233. Cidhy DATK. 2009. Implementasi Question Answering System dengan Pembobotan Heuristic [skripsi]. Bogor (ID): Institut Pertanian Bogor. Fathi S. 2012. Pembentukan Passage dalam Question Answering System untuk Dokumen Bahasa Indonesia [skripsi]. Bogor (ID). Institut Pertanian Bogor. Murata M, Utiyama M, Isahara H. 2005. Japanese-to-english and english-tojapanese cross-language question-answering system using decreased adding with multiple answers. Di dalam: Proceedings of the Fifth NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access; 2005 Dec 6-9; Tokyo, Japan. Tokyo (JP): National Institute of Informatics. Subu S. 2012. Cross Language Question Answering System Menggunakan Pembobotan Heuristic dan Rule Based [skripsi]. Bogor (ID): Institut Pertanian Bogor.
15 Lampiran 1 Waktu (detik) eksekusi sistem untuk memperoleh jawaban akhir No
Query
1 2
Siapa rektor IPB Siapa Herry Suhardiyanto Siapa Menteri Pertanian Siapa Suswono Siapa presiden BEM IPB Siapa Reza Pahlevi Siapa kepala PPSHB IPB Siapa Suharsono Siapa ketua LPPM IPB Siapa ketua HILPI Kapan Agrinex Expo 2011 Kapan IPB merilis cabai CH3 Kapan Diploma IPB punya Tax Center Kapan registrasi mahasiswa baru pascasarjana 2011 Kapan seminar sagu IPB Kapan program menanam 1000 pohon Bintaro Kapan PIMNAS 2011 Kapan TPB cup 2011 Kapan wisuda Diploma Tahap II Kapan Simposium Temulawak Internasional Dimana kampus IPB Dimana Agrinex Expo 2011 Dimana seminar sagu IPB Dimana Seminar Hasil Penelitian IPB Tahun 2011 Dimana mahasiswa menanam 1000 pohon Bintaro
3 4 5 6 7 8 9 10 11 12 13
14
15 16
17 18 19 20
21 22 23 24
25
Heuristic (Subu 2012)
Heuristic + Multidokumen
Heuristic
23.41 22.43
22.72 21.24
23.26 22.00
2.63 3.20
2.45 3.43
3.55 3.10
3.24 3.33
2.76 3.22
2.43 2.91
22.61
22.56
23.01
2.87
3.11
3.81
2.85
3.12
2.73
21.63 21.81
22.18 21.52
22.5 21.75
2.52 2.87
3.24 3.51
2.84 3.93
3.2 3.31
3.34 2.8
2.89 2.74
19.03 22.73
18.63 22.89
19.47 22.52
2.29 3.13
3.31 2.92
3.46 3.64
2.94 2.7
2.82 2.6
2.71 2.71
20.3 23.03
19.32 22.99
20.08 22.3
3.27 2.41
3.29 3.31
3.25 2.36
2.52 2.83
2.71 3.2
2.73 2.75
22.42 19.36
22.84 19.26
21.85 19.31
2.64 3.13
3.71 3.34
3.20 3.52
2.79 3.13
3.17 2.39
2.56 2.57
20.31
19.98
20.38
2.56
3.82
2.76
3.48
4.54
3.02
19.22
19.95
19.21
2.64
2.65
2.88
3.01
3.38
2.57
20.1
20.25
20.67
3.55
2.83
2.92
3.15
3.06
2.9
20.27
20.83
20.5
2.88
3.25
2.61
3.39
3.48
3.1
19.73
19.36
20.12
2.67
2.23
3.63
3.16
3.5
3.27
19.08
19.16
18.57
3.45
2.90
2.24
3.2
2.85
2.98
19.97
19.55
20.06
3.84
3.35
3.85
2.93
2.78
2.33
20.39
20.14
20.69
3.84
3.60
2.94
3.03
2.87
3.37
20.59
20.22
20.8
3.20
3.10
3.45
3.01
3.42
2.63
20.14
20.42
19.88
2.98
3.66
2.98
3.62
2.99
2.9
19.5
19.65
19.46
3.36
2.69
3.18
2.58
2.92
2.94
21.73
21.84
22.18
3.02
3.03
3.30
2.65
3.22
2.74
22.95
22.17
21.93
3.03
2.37
3.28
3.12
3.22
3.37
22.11
20.89
21.51
3.15
3.53
3.72
3.38
2.79
2.76
16 No
Query
26
Dimana PIMNAS 2011 Dimana PIMNAS 2010 Dimana Simposium Temulawak Internasional Dimana TPB cup 2011 Dimana lomba Anugerah Media Humas 2010 Berapa wakil ipb pada PIMNAS 2011 Berapa mahasiswa yang ikut TPB cup 2011 Berapa spesies koleksi sagu BPTP papua Berapa beasiswa Bank Mandiri pada mahasiswa IPB Berapa lulusan diploma pada wisuda tahap II Berapa judul penelitian pada Seminar Hasil Penelitian IPB Tahun 2011 Berapa pohon yg ditanam Forum Mahasiswa Pascasarjana IPB Berapa total pegawai ipb menerima bantuan pendidikan BNI syariah Berapa orang dari Soul Women University mengunjungi IPB Berapa mahasiswa ipb ikut demo memasak dengan kompor sekam
27 28
29 30
31
32
33
34
35
36
37
38
39
40
Heuristic (Subu 2012)
Heuristic
Heuristic + Multidokumen 3.18 2.96 3.13
18.52
18.67
18.44
3.35
2.71
2.64
18.56
18.51
18.44
3.24
3.31
3.19
3.4
3.41
2.87
21.23
20.3
20.2
3.33
2.67
3.77
2.9
3.09
2.71
20.07
19.81
20.12
2.43
3.07
2.21
2.62
2.62
2.47
20.01
20.17
19.73
3.52
3.57
2.87
2.59
3.19
3.33
20.15
19.75
19.71
3.12
3.35
3.11
3.25
2.94
3.12
19.95
19.35
19.57
2.92
2.61
3.08
3.2
2.87
3.45
19.91
20.34
19.57
2.11
2.82
3.24
3
3.22
3.13
19.58
19.09
19.87
3.43
2.31
3.04
3.39
3.49
3.23
20.22
20.05
19.79
3.47
3.62
3.12
3.21
3.74
2.91
20.4
19.52
19.51
3.43
3.04
3.07
2.84
2.93
2.68
20.01
19.19
19.98
2.90
3.35
2.88
3.12
3.68
2.89
20.04
19.13
19.89
2.52
2.46
2.96
2.89
3.02
3.5
19.74
19.17
19.09
3.02
2.79
2.37
3.18
2.67
2.84
20.56
19.65
20.18
2.94
3.09
3.34
3.01
3.86
3.13
17 Lampiran 2 Tabel hasil kata tanya SIAPA
No
Query
Heuristic (Subu 2012)
Hasil yang diharapkan
Jawaban
Ket
Heuristic + Multidokumen
Heuristic Jawaban
Ket
Jawaban
Ket
Prof. Dr. Ir. Herry Suhardiya nto M.Sc. Rector IPB
R
Prof. Dr. Ir. Herry Suhardiya nto M.Sc. Rector IPB
R
1
Siapa rektor IPB
Herry Suhardiyanto
Herry Suhardiya nto
R
2
Siapa Herry Suhardiyant o Siapa Menteri Pertanian Siapa Suswono
Rector of IPB
Rector of IPB
R
Suswono
Suswono
R
Mr Suswono
R
Mr Suswono
R
Minister of Agriculture
W
Minister Agricultur e Reza Pahlevi
R
Reza Pahlevi
President of BEM KM IPB
-
N
Minister Agricultur e Dr. Drh. Moh. Agil M. Agr. President BEM KM IPB
R
Siapa presiden BEM IPB Siapa Reza Pahlevi
National Logistic Agency PPNSI
R
President BEM KM IPB
R
Siapa kepala PPSHB IPB Siapa Suharsono
Suharsono
Suharson o
R
Dr Suharsono
R
Dr Suharsono
R
Head of PPSHB IPB
Head of PPSHB
R
R
Siapa ketua LPPM IPB
Bambang Pramudya
R
10
Siapa ketua HILPI
Prof. Dr. Bambang Pramudya Prof Dr Ir Muladno MSA
Head PPSHB IPB Prof. Dr. Bambang Pramudya Prof Dr Ir Muladno MSA
R
9
Head of PPSHB IPB Prof. Dr. Bambang Pramudya Prof Dr Ir Muladno MSA
3
4
5
6
7
8
Dr. Ir. Hashim, DEA
W
Keterangan R: Right U: Unsupported W: Wrong N: Null
R
W
R
R
R
R
R
R
18 Lampiran 3 Tabel hasil kata tanya KAPAN
No 1
Query
Hasil yang diharapkan
Heuristic (Subu 2012)
Heuristic + Multidokumen
Heuristic
Jawaban
Ket
Jawaban
Ket
Jawaban
Ket
R
Friday 4 March 2011 October 2010
R
Friday 4 March 2011 October 2010
R
October 2010
Friday, 4 March 2011 October 2010
Tuesday 5 April 2011
Tuesday 5 April 2011
R
Tuesday 5 April 2011
R
Tuesday 5 April 2011
R
January 19, 2011
January 19, 2011
R
January 19 2011
R
January 19 2011
R
14 /10
14 /10
R
14 /10
R
14 /10
R
Saturday, 19 February 2011
Saturday, 19 February 2011
R
Saturday, 19 February 2011
R
Saturday, 19 February 2011
R
18-22 2011
Juli
18-22 Juli 2011
R
18-22 Juli 2011
R
18-22 Juli 2011
R
R
Kapan Agrinex Expo 2011 Kapan IPB merilis cabai CH3 Kapan Diploma IPB punya Tax Center Kapan registrasi mahasiswa baru pascasarjana 2011 Kapan seminar sagu IPB Kapan program menanam 1000 pohon Bintaro Kapan PIMNAS 2011 Kapan TPB cup 2011
Friday, 4 March 2011
14-17 April 2011
14-17 April 2011
R
14-17 April 2011
R
14-17 April 2011
9
Kapan wisuda Diploma Tahap II
18-19 October
18-19 October
R
18-19 October
R
18-19 October
10
Kapan Simposium Temulawak Internasional
27 2011
27 May 2011
R
27 May 2011
R
27 May 2011
2
3
4
5
6
7
8
May
R
Keterangan R: Right U: Unsupported W: Wrong N: Null
R
R
R
N
19 Lampiran 4 Tabel hasil kata tanya DIMANA
No 1 2
3
4
5
6
7
8
9 10
Query Dimana kampus IPB Dimana Agrinex Expo 2011 Dimana seminar sagu IPB Dimana Seminar Hasil Penelitian IPB Tahun 2011 Dimana mahasiswa menanam 1000 pohon Bintaro Dimana PIMNAS 2011 Dimana PIMNAS 2010 Dimana Simposium Temulawak Internasional Dimana TPB cup 2011 Dimana lomba Anugerah Media Humas 2010
Hasil yang diharapkan
Heuristic (Subu 2012) Jawaban
Ket
Heuristic + Multidokumen
Heuristic Jawaban
Ket
Jawaban
Ket
Darmaga
Darmaga
R
Darmaga
R
Darmaga
R
Jakarta Convention Center IPB International Convention Center Auditorium of the Faculty of Fisheries and Marine Sciences Darmaga
Jakarta Convention Center IPB International Convention Center Auditorium of the Faculty of Fisheries and Marine Sciences Darmaga
R
Jakarta Convention Center IPB International Convention Center IICC Auditorium of the Faculty of Fisheries and Marine Sciences Darmaga
R
Jakarta Convention Center IPB International Convention Center IICC Auditorium of the Faculty of Fisheries and Marine Sciences Darmaga
R
Makassar, South Sulawesi Denpasar
Makassar, South Sulawesi Denpasar
R
Makassar, South Sulawesi Denpasar
R
Makassar South Sulawesi Denpasar
R
IPB International Convention Center Gymnasium
IPB International Convention Center Gymnasium
R
IPB International Convention Center Gymnasium
R
IPB International Convention Center Gymnasium
R
West Nusa Tenggara
West Nusa Tenggara
R
West Nusa Tenggara
R
West Nusa Tenggara
R
R
R
R
R
R
Keterangan R: Right U: Unsupported W: Wrong N: Null
R
R
R
R
R
R
R
R
R
R
20 Lampiran 5 Tabel hasil kata tanya BERAPA
No 1
2
3
4
5
6
7
8
9
10
Query Berapa wakil ipb pada PIMNAS 2011 Berapa mahasiswa yang ikut TPB cup 2011 Berapa spesies koleksi sagu BPTP papua Berapa beasiswa Bank Mandiri pada mahasiswa IPB Berapa lulusan diploma pada wisuda tahap II Berapa judul penelitian pada Seminar Hasil Penelitian IPB Tahun 2011 Berapa pohon yg ditanam Forum Mahasiswa Pascasarjana IPB Berapa total pegawai ipb menerima bantuan pendidikan BNI syariah Berapa orang dari Soul Women University mengunjungi IPB Berapa mahasiswa ipb ikut demo memasak dengan kompor sekam
Hasil yang diharapkan
Heuristic (Subu 2012) Jawaban
Ket
Heuristic + Multidokumen
Heuristic Jawaban
Ket
Jawaban
Ket
141
141
R
1
W
1
W
1,400
1,400
R
1,400
R
1400
R
60
60
R
60
R
60
R
Rp 1,2 billion
3
W
Rp 1,2 billion
R
Rp 1,2 billion
R
1160
1160
R
1160
R
1160
R
225
225
R
225
R
225
R
1000
1000
R
1000
R
1000
R
80
80
R
80
R
80
R
10
10
R
10
R
10
R
150
150
R
150
R
150
R
Keterangan R: Right U: Unsupported W: Wrong N: Null
21
RIWAYAT HIDUP Penulis lahir di Serang pada tanggal 27 April 1991. Penulis merupakan sulung dari dua bersaudara dari pasangan Bapak Putut Irianto dan Ibu Sri Mulyani. Penulis menghabiskan masa pendidikan dasar, menengah, dan atas di kota Cilegon. Tahun 2009 menjadi tahun kelulusan penulis dari SMA Negeri 1 Cilegon. Di tahun yang sama pula penulis diterima sebagai mahasiswa Institut Pertanian Bogor di departemen Ilmu Komputer melalui jalur USMI. Selama menjalani kuliah di IPB penulis berorganisasi di Divisi Edukasi Himpunan Mahasiswa Ilmu Komputer sebagai penanggung jawab komunitas Networking pada periode 2010/2011. Penulis melaksanakan kegiatan Praktik Kerja Lapang (PKL) selama 2 bulan di Divisi Informtaion Technology (IT) dan Networking Berita Satu Media Holdings sebagai Web Developer pada tahun 2012. Penulis juga pernah meraih prestasi seperti: Proposal Didanai Program Kreativitas Mahasiswa DIKTI pada tahun 2012, Proposal Didanai Sobat Bumi Pertamina pada tahun 2013, dan Semifinalis Acer International Green Contest pada tahun 2013.