4
dan Thelen (2000) karena disesuaikan terhadap kaidah bahasa Indonesia. Rule yang dibuat Sianturi (2008) dan digunakan oleh Sanur (2011) memiliki notasi S sebagai sentence atau passage serta Q sebagai kueri. Contohnya adalah: 1 2 3 4 1 2 3
4 5 6
1 2 3 4 5 1 2 3 4
SIAPA Score(S) += WordMatch(Q,S) If ~contains(Q, {NAME, ORGANIZATION}) and contains (Q, {NAME, ORGANIZATION}) then score(S) += slam_dunk
KAPAN Score(S) += WordMatch(Q,S)) If contains(S, {DATE, TIME} and contains (S,{saat,ketika,kala,semenjak,sejak, waktu, setelah, sebelum}) then Score(S) += slam_dunk If contains(S, {DATE, TIME}) then Score(S) += good_clue If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) +=clue
Menggunakan nilai Mean Reciprocal Rank (MRR) untuk melihat kinerja sistem dalam mengambil passage yang relevan. Lingkungan Pengembangan Lingkungan pengembangan yang digunakan pada penelitian ini adalah:
Prosesor Intel Core i5 2500K 3.3 GHz. RAM 4 GB DDR3. Windows 7 64 bit. Harddisk 2 TB.
HASIL DAN PEMBAHASAN Pemrosesan Dokumen
Score(S) += WordMatch(Q,S) If contains(S, LOCATION) and contains (S,{dalam,dari, pada}) then Score(S) += slam_dunk If contains(S, LOCATION) then Score(S) += good_clue If contains(S,{dalam, dari, pada}) then Score(S) += clue
Dokumen yang terkumpul diberikan penamaan entitas (tagging) menggunakan hasil penelitian Citraningputra (2009). Hal ini diperlukan sebagai penanda entitas jawaban sesuai dengan pertanyaan yang diberikan. Entitas yang digunakan dalam tagging ialah NAME, ORGANIZATION, DATE, TIME, NUMBER, CURRENCY, dan LOCATION. Kata yang terdeteksi oleh aplikasi tagging akan diapit oleh notasi
sesuai dengan jenis entitas katanya. Sebagai contoh jika terdapat entitas tanggal seperti “1998”, setelah diproses oleh aplikasi hasil penelitian Citraningputra akan menjadi 1988.
BERAPA
Pembentukan Passage
DI MANA
Score(S) +=WordMatch (Q,S) If contains(Q, {NUMBER, CURRENCY})and contains (S, {NUMBER, CURRENCY}) then Score(S) += slam_dunk If contains(S, {NUMBER, CURRENCY})then Score(S) += confident
Ekstraksi Jawaban Proses ekstraksi jawaban akan mengolah top passage untuk mendapatkan entitas jawaban. Entitas jawaban dihitung dengan mencari selisih jarak entitas dengan semua kueri. Entitas yang memiliki jarak terpendek menjadi entitas jawaban. Evaluasi Hasil Percobaan Tahap evaluasi dilakukan secara objektif dengan cara: Membandingkan jawaban dengan hasil penelitian milik Sanur (2011). Membandingkan dua metode retrieval BM25 dan Proximity yang tersedia pada Sphinx.
Pembentukan passage dilakukan menggunakan dua metode. Metode pertama membentuk passage sebelum indexing dan metode kedua membentuk passage sesudah indexing. Passage dibentuk berdasarkan jumlah kata dan kalimat serta sifat overlapping dan non-overlapping. Semua kombinasi jenis passage dilakukan untuk mendapatkan jenis passage yang terbaik. Penentuan jenis passage dapat dilihat di antarmuka pada Lampiran 1. Dokumen tersebut akan dipecah menjadi passage berdasarkan jenisnya. Untuk jenis overlapping passage dua kalimat, passage pertama berisi kalimat pertama dan kedua. Passage kedua berisi kalimat kedua dan ketiga. Kalimat kedua terdapat pada passage pertama dan kedua karena menggunakan tipe overlapping passage. Jika yang digunakan adalah non- overlapping passage, kalimat kedua hanya berada pada passage pertama saja. Passage yang sudah terbentuk akan diproses lebih lanjut untuk mendapatkan entitas jawaban sesuai dengan tipe pertanyaannya. Berikut adalah pembentukan overlapping passage
5
menggunakan dua kalimat. Semua informasi dokumen pada passage yang berada dalam satu dokumen memiliki isi yang sama kecuali bagian content. Bagian content adalah bagian yang akan dibentuk passage untuk proses ekstraksi jawaban. Sebagai contohnya dokumen awal sebagai berikut: 1 2 3 4 5
6
<doc> <docno>suarapembaruan081002.txt TST/AP/Rtr/S-20 Menlu Australia, Ekstremis Muslim di Asia Tenggara Tidak Akan Berkembang KUALA LUMPUR - Menteri Luar Negeri (Menlu) Australia Alexander Downer menegaskan, kapasitas kelompok militan Asia berhubungan dengan jaringan AlQaeda bisa berkembang baik dan walaupun jumlah mereka tidak bertambah. Sikap ekstremisme mereka merupakan suatu ancaman. "Ini merupakan suatu masalah besar bagi kawasan ini," ujar Menlu Downer di sela-sela pertemuan Forum Ekonomi Dunia di Kuala Lumpur, Senin,7/10.
6
"Ini merupakan suatu masalah besar bagi kawasan ini," ujar Menlu Downer di sela-sela pertemuan Forum Ekonomi Dunia di Kuala Lumpur, Senin,7/10.
Terdapat juga passage yang dibentuk menggunakan jumlah kata. Berikut adalah contoh overlapping passage yang menggunakan jumlah 30 kata pada dokumen yang sama. Passage pertama: 1 2 3 4 5
6
<doc> <docno>suarapembaruan081002.txt TST/AP/Rtr/S-20 Menlu Australia, Ekstremis Muslim di Asia Tenggara Tidak Akan Berkembang KUALA LUMPUR - Menteri Luar Negeri (Menlu) Australia Alexander Downer menegaskan, kapasitas kelompok militan Asia berhubungan dengan jaringan AlQaeda bisa berkembang baik dan walaupun jumlah mereka tidak bertambah. Sikap ekstremisme
Passage pertama: Passage kedua: 1 2 3 4 5
6
<doc> <docno>suarapembaruan081002.txt TST/AP/Rtr/S-20 Menlu Australia, Ekstremis Muslim di Asia Tenggara Tidak Akan Berkembang KUALA LUMPUR - Menteri Luar Negeri (Menlu) Australia Alexander Downer menegaskan, kapasitas kelompok militan Asia berhubungan dengan jaringan AlQaeda bisa berkembang baik dan walaupun jumlah mereka tidak bertambah. Sikap ekstremisme mereka merupakan suatu ancaman.
Passage kedua: 1 2 3 4 5
<doc> <docno>suarapembaruan081002.txt TST/AP/Rtr/S-20 Menlu Australia, Ekstremis Muslim di Asia Tenggara Tidak Akan Berkembang Sikap ekstremisme mereka merupakan suatu ancaman.
1 2 3 4 5
6
<doc> <docno>suarapembaruan081002.txt TST/AP/Rtr/S-20 Menlu Australia, Ekstremis Muslim di Asia Tenggara Tidak Akan Berkembang mereka merupakan suatu ancaman. "Ini merupakan suatu masalah besar bagi kawasan ini," ujar Menlu Downer di sela-sela pertemuan Forum Ekonomi Dunia di Kuala Lumpur, Senin,7/10.
Pemrosesan kueri Jenis pertanyaan yang digunakan dalam penelitian ini adalah SIAPA, KAPAN, BERAPA, dan DI MANA. Untuk setiap tipe pertanyaan diberikan sepuluh macam pertanyaan. Lampiran 2 untuk daftar pertanyaan „Siapa‟, Lampiran 3 untuk daftar pertanyaan „Kapan‟, Lampiran 4 untuk daftar pertanyaan „Di mana‟, dan Lampiran 5 untuk daftar pertanyaan „Berapa‟. Untuk menentukan tipe
6
pertanyaannya, kalimat tanya akan dilakukan proses parsing. Proses ini memisah kalimat menjadi kata-kata yang disimpan dalam sebuah array. Kata dengan indeks ke-0 akan menentukan jenis pertanyaannya. Jenis pertanyaan ini akan menentukan tag entitas yang akan dicari saat menentukan jawaban pertanyaan seperti pada Tabel 1. Contohnya untuk kueri “Kapan dilakukan penelitian di rumah kaca Balittro?”. Kata „Kapan‟ akan ditempatkan pada indeks ke-0. Kata tersebut menentukan jenis target entitas jawabannya. Kata „Kapan‟ berdasarkan Tabel 1 merujuk pada tag „‟ dan „<TIME>‟ sehingga entitas dengan tag tersebut yang akan dicari dalam passage. Sisa kata akan ditempatkan pada indeks selanjutnya. Kata „penelitian‟, „rumah‟, „kaca‟ dan „balittro‟ akan ditempatkan berurutan dalam indeks array. Kata „dilakukan‟ dan kata „di‟ tidak termasuk kueri karena dianggap sebagai stopwords. Semua kata akan diubah ke huruf kecil untuk normalisasi saat pencarian. Semua kata pada array, kecuali kata pertama, akan menjadi kueri untuk mendapatkan dokumen atau passage yang relevan. Perolehan Top Passage Proses retrieval pada penelitian ini menggunakan dua metode yang telah tersedia pada Sphinx, yaitu BM25 dan Proximity. BM25 menggunakan metode statistik, sedangkan Proximity menggunakan metode dengan memeriksa urutan kata pada dokumen atau passage berdasarkan kueri. Contoh ialah kueri “Siapa Marty Natalegawa?”. Kata “Marty” dan “Natalegawa” akan menjadi kueri. Pada retrieval yang menggunakan BM25, setiap kata dicari bobotnya untuk masing-masing dokumen. Setiap bobot kueri pada dokumen dijumlahkan untuk mendapatkan bobot keseluruhan untuk dokumen. Bobot tersebut setelah dinormalisasi nilainya dikalikan berdasarkan bobot setiap field untuk meranking dokumennya. Proses perhitungannya dapat dilihat pada Tabel 2. Nilai BM25 final adalah nilai bobot terakhir dokumen terhadap kueri. Setelah itu, bobot tersebut di-ranking berdasarkan mode yang ditelah ditentukan pada konfigurasi Sphinx. Penelitian ini menggunakan mode SPH_RANK_BM25 yang menggunakan rumus: 1 2 3 4
field_weights = 0 foreach (field in matching_fields){ field_weights += user_weight(field)} weight = field_weights*1000 + integer(doc_bm25*999)
Tabel 2 Contoh proses perhitungan BM25 Variabel / Kueri
Marty
Natalegawa
n
1.000
1.000
N
1000.000
1000.000
k1
1.200
1.200
idf
0.999
0.999
tf
4.000
1.000
BM25 (awal)
0.000
0.770
BM25
0.770
1.220
BM25 Final
0.810
FIELD_WEIGHT adalah field yang mengandung kueri. Kata “Marty Natalegawa” hanya terdapat pada field CONTENT, sehingga nilai FIELD_WEIGHT ialah 1. Bobot yang memiliki nilai tertinggi untuk kueri “Siapa Marty Natalegawa” ialah dokumen republika170704-001.txt dengan nilai bobot 1805. Metode yang menggunakan Proximity dilihat urutan katanya untuk semua dokumen atau passage yang mengandung kueri. Sebagai contoh, untuk kueri “Di mana terjadi masalah sempitnya lahan pertanian, inefisiensi, produktivitas rendah, dan fluktuasi harga produk pertanian?”, kata yang menjadi kueri setelah dihilangkan stopwords-nya ialah “masalah, sempitnya, lahan, pertanian, inefisiensi, produktivitas, fluktuasi, harga, produk”. Dari kueri tersebut, dokumen kompas270401.txt memiliki bobot 5 karena di dalam dokumen terdapat kalimat yang cocok dengan kueri secara berurutan, yaitu “sempitnya lahan pertanian, inefisiensi, produktivitas”. Proses retrieval di atas tidak memperhatikan passage yang memiliki target entitas jawaban. Passage yang relevan tidak semuanya mengandung entitas jawaban. Passage tersebut disaring berdasarkan entitas jawaban yang diperlukan sesuai jenis pertanyaannya. Jika pertanyaannya adalah “Kapan”, entitas yang dibutuhkan adalah tag dan tag <TIME>. Passage yang tidak memiliki entitas jawaban tidak akan masuk ke proses selanjutnya. Sistem akan mencari passage yang hanya memiliki tag sesuai dengan tipe pertanyaan. Setelah terkumpul passage yang memiliki calon entitas jawaban, dilakukan proses pembobotan passage untuk menentukan passage yang memiliki kemungkinan tertinggi memiliki jawaban.
7
Pembobotan Rule Based Pembobotan Rule Based mengacu pada rule yang terdapat dalam Riloff dan Thelen (2000) serta penelitian Sianturi (2008) dan Sanur (2011). Terdapat dua fungsi yang digunakan dalam pembobotan Rule Based yaitu wordmatch dan contain. WordMatch adalah nilai banyaknya kata yang sama pada kueri dalam passage. Algoritme WordMatch dilakukan dengan cara menghitung banyaknya semua token kueri pada setiap passage. Hasilnya disimpan dalam variabel WordMatch. Contain adalah nilai pembobotan berdasarkan kata pada passage yang mencirikan passage tersebut sesuai jenis target entitasnya. Nilai bobot passage yang memiliki kata yang terdapat dalam daftar kamus HUMAN, akan bertambah. Kamus terdiri atas empat macam sesuai dengan banyaknya tipe pertanyaan yang ada dalam penelitian. Berikut adalah contoh algoritme rule-based yang digunakan sebagai acuan dalam penelitian ini untuk jenis pertanyaan “KAPAN”: 1 2 3
4 5
KAPAN Score(S) += WordMatch(Q,S)){ If contains(S, {DATE, TIME} and contains (S,{saat,ketika,kala,semenjak,sejak, waktu, setelah, sebelum}) then Score(S) += slam_dunk If contains(S, {DATE, TIME}) then Score(S) += good_clue If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) += good_clue
Fungsi dan notasi yang digunakan dalam rules tersebut adalah: Notasi S = sentence (kalimat dokumen / passage). Notasi Q = query (kalimat kueri). Fungsi contains adalah fungsi untuk memeriksa kata dalam passage apakah memiliki kata dalam kamus atau tidak. Fungsi WordMatch adalah fungsi untuk menghitung frekuensi kueri pada dokumen. Fungsi score adalah fungsi penjumlahan nilai bobot pada passage. Setelah diperoleh nilai dari Wordmatch dan pembobotan rule-based, bobot setiap passage dihitung. Passage yang memiliki bobot terbesar akan menjadi top passage. Sebagai contoh, dari kueri “Kapan dilakukan penelitian di rumah kaca Balittro?” diperoleh 10 passage dari 3
dokumen teratas dan yang menjadi top passage adalah passage dengan id ke-8 dari dokumen wartapenelitian000000-008.txt. Isi passage tersebut adalah: “Untuk itu telah dilakukan penelitian di rumah kaca Balittro Bogor pada tahun 1997/1998 dan dilanjutkan penelitian di lapang di IP Sukamulya (Sukabumi) pada tahun 1998/1999. Pada percobaan rumah kaca, tujuh jenis bakteri antagonis baik secara sendirisendiri maupun gabungan yang diformulasikan dalam suatu pembawa, yaitu bakteri antagonis P”. Passage tersebut memiliki 2 kata „penelitian‟, 2 kata „rumah‟, 2 kata „kaca‟, dan 1 kata „balittro‟ sehingga score wordmatch-nya ialah 7. Langkah selanjutnya adalah memeriksa kata pada kueri dengan kata dalam passage yang terdapat dalam kamus DATE & TIME. Kamus DATE & TIME ditentukan secara manual. Semakin rinci isi kamus DATE & TIME, kemungkinan mendapatkan passage yang relevan semakin besar. Kamus DATE & TIME berupa file .txt yang berisi kata-kata yang mengandung DATE & TIME. Contohnya „januari‟, „senin‟, „tahun‟, dan „bulan‟. Dalam contoh ini, kamus DATE & TIME dan passage memiliki kata „tahun‟ sehingga score bertambah 4 karena salah satu syarat dalam rule dan mengakibatkan penambahan nilai variabel good_clue pada total bobot passage sehingga jumlah bobot passage menjadi 11. Dari 10 passage yang relevan, passage ini memiliki bobot paling tinggi sehingga menjadi top passage. Ekstraksi Jawaban Ekstraksi jawaban dilakukan setelah sistem mendapatkan top passage. Top passage akan dipecah menjadi kata-kata, kecuali entitas yang memiliki tag, maka pemecahannya berdasarkan tag. Hasil pemisahan tersebut disimpan dalam sebuah array untuk dihitung jarak antara entitas kueri dan entitas jawaban. Sebagai contoh, dari kueri “Kapan dilakukan penelitian di rumah kaca Balittro?” diperoleh 10 passage dari 3 dokumen teratas dan yang menjadi top passage ialah passage dengan id ke-8 dari dokumen “wartapenelitian000000-008.txt”. Sistem akan mencari kandidat jawaban sesuai dengan tipe pertanyaannya. Untuk contoh ini tipe pertanyaan adalah “KAPAN”, sehingga tipe entitas yang dicari adalah entitas dan <TIME>. Dari top passage, terdapat dua buah entitas yang bertipe tersebut, yaitu: [DATE]1997/1998[/DATE] [DATE]1998/1999[/DATE]
8
“1997/1998” memiliki nilai paling rendah (1.57) sehingga kata tersebut menjadi jawaban. Hasil Percobaan
Gambar 5 Kinerja passage terbaik mode BM25.
Gambar 6 Kinerja passage terbaik mode Proximity. Kandidat tersebut akan dihitung jaraknya dengan kueri yang terdapat dalam passage. Kueri dalam pertanyaan ini ialah kata “penelitian’, rumah’, „kaca’, dan „balittro’ sehingga kata tersebut menjadi acuan untuk mencari selisih jarak dengan kandidat jawaban. Kandidat jawaban dalam contoh ini adalah entitas dengan indeks array nomor 12 dan 24. Dihitunglah jarak untuk masing-masing entitas jawaban terhadap entitas kueri yang berada dalam passage. Jarak yang terkecil akan menjadi jawabannya. Kandidat jawaban
Hasil percobaan dilakukan dengan membandingkan hasil penelitian yang didapat dari hasil penelitian Sanur (2011) dengan menggunakan dua metode retrieval pada sphinx, yaitu BM25 dan Proximity. Perbandingan dilakukan dengan melihat ketepatan jawaban yang ditemukembalikan dengan menggunakan pembobotan rule-based dan 10 dokumen atau passage teratas. Dokumen yang digunakan dalam penelitian ini berjumlah 1000 dokumen dan menggunakan 40 kueri dengan 10 kueri untuk masing-masing jenis pertanyaannya. Semua pertanyaan dicoba ke semua kombinasi jenis passage. Setiap hasil pertanyaan dicatat ke dalam tabel dan dikoreksi apakah jawaban right, wrong, unsupported, atau null. Perbandingan kinerja passage terbaik menggunakan mode retrieval BM25 dapat dilihat pada Gambar 5 dan lebih jelasnya pada Lampiran 6. Perbandingan kinerja passage terbaik untuk mode retrieval Proximity dapat dilihat pada Gambar 6 dan lebih jelasnya pada Lampiran 7. Gambar 5 dan Gambar 6 adalah banyaknya jawaban yang berhasil dijawab dengan benar berdasarkan jenis pertanyaan Siapa, Kapan, Di mana, dan Berapa. Untuk setiap jenis pertanyaan, diberikan 10 pertanyaan yang berbeda. Passage yang memiliki nilai terbaik pada mode BM25 kinerjanya mencapai 80%, yaitu 20 kata overlap dan yang mencapai 77.5% yaitu 30 kata overlap dengan anggapan satu tag adalah satu kata. Untuk mode Proximity, kinerjanya mencapai 77.5% untuk overlapping passage dua kalimat, nonoverlapping dua kalimat, dan overlapping 20 kata dengan satu tag satu kata. Semua passage tersebut dibentuk setelah proses indexing. Passage yang menggunakan Proximity memiliki kinerja yang lebih baik pada pertanyaan „Siapa‟ dan „Kapan‟. Pada Gambar 5, terlihat tiga passage terbaik untuk mode proximity dapat menjawab semua pertanyaan dengan benar. Hanya overlapping passage 20 kata satu tag satu kata saja yang salah menjawab satu pertanyaan untuk tipe pertanyaan „Siapa‟, sedangkan passage yang menggunakan mode BM25 memiliki kinerja yang baik pada tipe pertanyaan „Di mana‟. Passage dengan kinerja terbaik untuk mode BM25 dapat menjawab semua pertanyaan dengan benar untuk tipe pertanyaan „Di mana‟. Hanya overlapping passage dua kalimat saja
9
yang tidak menjawab semua pertanyaan dengan benar. Tipe pertanyaan „Berapa‟ kinerja kedua mode memiliki hasil yang tidak baik. Hal ini disebabkan tag NUMBER banyak digunakan tidak hanya sebagai kata, tetapi juga sebagai penulisan jika ingin menyebutkan sesuatu berdasarkan urutan. Hal ini mengakibatkan banyaknya tag NUMBER yang bukan entitas jawaban. Semakin banyak target entitas yang terambil, kinerja pengukuran kedekatan jarak dengan kueri akan semakin berkurang. Ada beberapa pertanyaan yang hanya dapat dijawab oleh passage tertentu. Faktor-faktor yang memengaruhi hasil ekstraksi jawaban pada sistem ini adalah relevansi passage yang terambil, jarak antara kandidat jawaban dengan kueri, dan terpotongnya kata pada tag untuk jenis passage yang berdasarkan jumlah kata. Faktor terpotongnya jumlah kata dapat diatasi dengan cara menganggap satu tag sebagai satu kata. Teknik tersebut membuat kandidat entitas jawaban dalam tag tidak terpotong oleh banyaknya kata pada passage yang dibentuk berdasarkan jumlah kata. Contoh untuk Tabel 3 Perbandingan pertanyaan yang memiliki jawaban yang berbeda Pertanya an/ Jenis passage
50 kata overlapping passage A
2 kalimat overlapping passage B
2 kalimat nonoverlapping passage C
Siapa menteri pertanian ?
Hatta Radjasa
Hatta Radjasa
Hatta Radjasa
Siapa Marty Natalega wa?
Departemen Luar Negeri Republik Indo-nesia
Departemen Luar Negeri Republik Indonesia
KBRI
NULL
Maluku dan Irian Jaya
Maluku dan Irian Jaya
Nanggro Aceh Darussa-lam
Sumatra
Sumatra
2.201 Juta ha
5
5
Di mana pengolaha n sagu skala industri berkemba ng? Di mana terjadi penuruna n produksi tanaman tembakau ? Berapa luas areal sagu Dunia?
mengetahui jenis kasus pertanyaan beserta faktor yang memengaruhi ektstraksi jawaban pada sistem dapat dilihat pada Tabel 3. Pada pertanyaan “Siapa menteri pertanian?” passage A, B, dan C memiliki jawaban yang salah karena entitas jawaban yang benar memiliki jarak yang jauh. Entitas jawaban yang salah memiliki jarak terdekat dengan kueri sehingga entitas jawaban yang terambil adalah jawaban yang salah. Sebagai contoh pada passage A terdapat tujuh entitas jawaban beserta nomor indeks katanya, yaitu: [0] => [NAME]Megawati Soekarnoputri[/NAME] (2) [1] => [NAME]Taufik Kiemas[/NAME] (3) [2] => [NAME]Taufik Kiemas[/NAME] (26) [3] => [NAME]Hatta Radjasa[/NAME] (30) [4] => [NAME]Rini Suwandi[/NAME] (32) [5] => [NAME]Prakosa[/NAME] (34) [6] => [NAME]Rokhmin Dahuri[/NAME] (39) [7] =>[NAME]Bungaran Saragih[/NAME](43) Top passage memiliki lima kata yang sama dengan kueri. Kata-kata tersebut berada pada indeks ke: 6, 23, 35, 41, dan 42. Dari indeks kata tersebut, dihitung jaraknya terhadap entitas kandidat jawaban berdasarkan nomor indeks array-nya. Setelah dihitung, ketujuh entitas tersebut memiliki nilai jarak dengan rata-rata:
[0] => 27.4 [1] => 26.4 [2] => 3.4 [3] => 0.6 [4] => 2.6 [5] => 4.6 [6] => 9.6 [7] => 13.6
Nilai yang terkecil dimiliki oleh entitas jawaban dengan indeks ke-3, yaitu “Hatta Radjasa”. Hal ini yang menyebabkan jawaban pertanyaan pada passage A salah. Hasil ini menjelaskan bahwa jarak entitas kandidat jawaban terhadap kueri adalah faktor yang memengaruhi ekstraksi jawaban. Pada pertanyaan “Siapa Marty Natalegawa?”, passage C memiliki jawaban yang salah karena passage yang ditemukembalikan memang tidak relevan terhadap pertanyaan. Sama seperti pertanyaan “Di mana terjadi penurunan produksi tanaman tembakau?” dan “Berapa luas areal sagu Dunia?”, top passage yang diperoleh oleh passage B dan passage C adalah passage yang