IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA
Oleh: NAFI’ IKHSANI G64102016
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED UNTUK TEMU KEMBALI INFORMASI BERBAHASA INDONESIA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh : NAFI’ IKHSANI G64102016
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
ABSTRAK NAFI’ IKHSANI. Implementasi Question Answering System dengan Metode Rule-Based untuk Temu Kembali Informasi Berbahasa Indonesia. Dibimbing oleh JULIO ADISANTOSO dan SRI NURDIATI. Question Answering System (QAS) dapat diterapkan untuk membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading comprehension). Dengan memasukkan kueri berupa pertanyaan ke dalam sistem, maka sistem akan mengembalikan sebuah kalimat sebagai jawabannya. Proses penemukembalian jawaban dimulai dengan memecah (parsing) suatu dokumen bacaan menjadi kalimat-kalimat. Kalimat-kalimat tersebut dipecah dan di-stem menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri dipecah dan di-stem menjadi token-token. Token-token dari setiap kalimat dokumen maupun kueri diproses dalam rules sesuai dengan tipe pertanyaannya. Dalam penelitian ini tipe pertanyaan yang digunakan hanya lima tipe, yaitu: APA, SIAPA, KAPAN, MANA, dan MENGAPA. Proses di dalam rules itu memberikan nilai (score) untuk masing-masing kalimat dokumen. Kalimat yang memiliki nilai tinggi akan dikembalikan sebagai jawaban. Kalimat yang dikembalikan sebagai jawaban bisa lebih dari satu, karena ada kemungkinan beberapa kalimat yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga bergantung pada ambang batas nilai (threshold of score) yang digunakan. Threshold of score yang digunakan dalam penelitian ini adalah 1 sampai 12. Kinerja sistem tertinggi dicapai saat menggunakan ambang batas 7 dan 8, yang mengembalikan rata-rata tiga kalimat dan banyaknya hasil yang benar mencapai 82,5%. Dari evaluasi berdasarkan rules, rules ”APA” mempunyai kinerja yang paling tinggi, dan akurasi rata-rata rules adalah 74,65%. Namun, akurasi yang cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan berbagai asumsi yang digunakan. Kata kunci: Temu kembali informasi, Question Answering, Rule-based, Reading Comprehension
Judul
: Implementasi Question Answering System dengan Metode Rule-Based untuk Temu Kembali Informasi Berbahasa Indonesia Nama : Nafi’ Ikhsani NRP : G64102016
Menyetujui:
Pembimbing I
Pembimbing II
Ir. Julio Adisantoso, M.Kom NIP 131578807
Dr. Ir. Sri Nurdiati, M.Sc NIP 131578805
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, MS NIP 131473999
Tanggal lulus:
RIWAYAT HIDUP Penulis dilahirkan di Klaten, Jawa Tengah pada tanggal 12 Juli 1984 dari pasangan Sudaryanto dan Mulyani. Penulis merupakan anak ketiga dari empat bersaudara. Pendidikan formal penulis dimulai di SD Negeri II Karanganom, Klaten lulus pada tahun 1996. Tahun 1999 penulis lulus dari SLTP Negeri 1 Karanganom, Klaten. Kemudian pendidikan penulis dilanjutkan di SMU Negeri 1 Karanganom, Klaten sampai tahun 2002. Pada tahun yang sama, penulis melanjutkan studi di Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI), menjadi mahasiswa program studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Pada tahun 2005 penulis melaksanakan Praktik Lapang di Bagian Teknis AS/400 PT Informatics O.A.S.E Jakarta Selatan selama kurang lebih dua bulan. Penulis pernah menjadi Ketua Departemen Sosial Himpunan Mahasiswa Ilmu Komputer (Himalkom) periode 2003-2004, salah satu graphic designer di Koran Kampus IPB periode 2004-2005, dan juga Ketua Departemen Infokom Keluarga Mahasiswa Klaten (KMK) periode 2004-2005. Selama berkuliah di IPB, penulis juga aktif dalam berbagai kepanitiaan.
PRAKATA Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya sehingga tugas akhir ini berhasil diselesaikan. Tak lupa penulis juga mengucapkan terima kasih yang sebesar-besarnya kepada seluruh pihak yang telah membantu penulis dalam menyelesaikan tugas akhir ini, antara lain kepada : 1. Bapak dan Ibu tercinta serta seluruh keluarga yang senantiasa mencurahkan kasih sayangnya dan memberikan dukungan serta doa yang tulus. 2. Bapak Ir. Julio Adisantoso, M.Kom dan Ibu Dr. Ir. Sri Nurdiati, M.Sc selaku pembimbing skripsi, serta Bapak Firman Ardiansyah, S.Kom, M.Si selaku penguji. 3. Bapak Ahmad Ridha, S.Kom atas pengetahuan mengenai Information Retrieval dan saran yang diberikan. 4. Rahman dan Onny yang banyak membantu dalam penyelesaian tugas akhir ini. 5. Teman-teman Laboratorium Temu Kembali Informasi atas bantuan dan dukungannya. 6. Tika dan Lulut yang senantiasa mendengarkan keluh kesah penulis. 7. Fajri, Kelik, dan Yudha, atas kebersamaan dan persahabatan yang terjalin selama ini. 8. Umbu Yudha Prihantoro atas dukungan dan waktu yang terluangkan. 9. Eko Susilo yang telah membantu pelaksanaan seminar dan sidang penulis. 10. Teman-teman ilkomerz 39 atas kebersamaannya selama ini. 11. Teman-teman di Wisma Teratai: Pipit, Irien, Dynna, Wiwien, Mbak Euis, Yani, Arti, Mbak Rahma, Dina Kecil, Lanjar, atas dukungan yang diberikan. 12. Dan pihak-pihak lain yang tidak dapat disebutkan satu persatu. Semoga tulisan ini dapat bermanfaat, amin.
Bogor, Oktober 2006
Nafi’ Ikhsani
vi
DAFTAR ISI Halaman DAFTAR ISI ............................................................................................................................. vi DAFTAR GAMBAR ............................................................................................................... vii DAFTAR TABEL..................................................................................................................... vii DAFTAR LAMPIRAN ............................................................................................................. vii PENDAHULUAN Latar Belakang ..................................................................................................................... 1 Tujuan .................................................................................................................................. 1 Ruang Lingkup..................................................................................................................... 1 TINJAUAN PUSTAKA Temu Kembali Informasi ..................................................................................................... 1 Question Answering ............................................................................................................. 1 Quarc (Question Answering for Reading Comprehension) ................................................. 2 Parsing................................................................................................................................. 2 Stemming.............................................................................................................................. 3 METODE PENELITIAN Gambaran Umum Sistem ..................................................................................................... 3 Koleksi Dokumen Pengujian................................................................................................ 3 Parsing dan WordMatch ...................................................................................................... 3 Identifikasi Tipe Pertanyaan ................................................................................................ 3 Pengelompokan Tipe Jawaban............................................................................................. 4 Algoritma Rules ................................................................................................................... 4 Temu Kembali Jawaban....................................................................................................... 4 Ambang Batas Nilai (Threshold of Score) ........................................................................... 5 Evaluasi Sistem Temu Kembali Informasi........................................................................... 5 Asumsi-asumsi..................................................................................................................... 5 Lingkungan Implementasi.................................................................................................... 5 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian................................................................................................ 5 Parsing dan WordMatch ...................................................................................................... 5 Hasil Percobaan Berdasarkan Ambang Batas Nilai (Threshold of Score) ........................... 5 Evaluasi Sistem Temu Kembali Informasi Berdasarkan Ambang Batas Nilai (Threshold of Score)............................................................................................................. 7 Evaluasi Berdasarkan Rules ................................................................................................. 7 Kelebihan dan Kelemahan Sistem ....................................................................................... 9 KESIMPULAN DAN SARAN Kesimpulan .......................................................................................................................... 9 Saran .................................................................................................................................. 10 DAFTAR PUSTAKA ............................................................................................................... 10 LAMPIRAN.............................................................................................................................. 11
vii
DAFTAR GAMBAR 1 2 3 4 5 6 7 8
Halaman WHO Rules........................................................................................................................... 2 WHEN Rules ........................................................................................................................ 2 WHERE Rules ...................................................................................................................... 2 WHAT Rules......................................................................................................................... 2 WHY Rules ........................................................................................................................... 2 DATELINE Rules ................................................................................................................. 2 Gambaran umum sistem....................................................................................................... 3 Prosentase hasil yang benar ................................................................................................. 6
DAFTAR TABEL 1 2 3 4 5 6
Halaman Evaluasi rule ”APA”............................................................................................................ 7 Evaluasi rule ”SIAPA” ........................................................................................................ 8 Evaluasi rule ”KAPAN” ...................................................................................................... 8 Evaluasi rule ”MANA”........................................................................................................ 8 Evaluasi rule ”MENGAPA” ................................................................................................ 9 Evaluasi keseluruhan rules................................................................................................... 9
DAFTAR LAMPIRAN 1 2
Halaman Contoh dokumen dalam koleksi......................................................................................... 12 Dokumen koleksi, kueri, jawaban yang diharapkan, dan threshold of score yang digunakan .......................................................................................................................... 13
1
PENDAHULUAN Latar Belakang Sistem temu kembali informasi yang ada saat ini sudah banyak yang menggunakan kueri berupa pertanyaan. Hal ini disebabkan karena kueri berupa pertanyaan dapat menspesifikasikan informasi yang dicari oleh pengguna. Hal ini terbukti dengan semakin banyaknya search engine yang memiliki fitur temu kembali informasi dengan kueri pertanyaan, misalnya www.ask.com dan www.askme.com. Dalam buku-buku mata pelajaran Bahasa Indonesia untuk siswa SD, SLTP, dan SMA, biasanya terdapat bacaan-bacaan yang disertai dengan pertanyaan-pertanyaan, yang disebut sebagai reading comprehension. Hal tersebut bertujuan untuk mengetahui kemampuan pemahaman siswa terhadap suatu bacaan. Para siswa diminta untuk menjawab pertanyaanpertanyaan yang ada dalam suatu bacaan. Tentunya mereka harus mengetahui aspekaspek penting dalam bacaan tersebut agar dapat menjawab pertanyaan-pertanyaan yang diberikan dengan baik. Question Answering System (QAS) dapat diterapkan untuk membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading comprehension). Dengan memasukkan kueri berupa pertanyaan, akan diperoleh sebuah kalimat sebagai jawabannya. Misalnya dengan kueri “Apa jaringan komputer itu?”, kalimat yang mungkin akan dikembalikan sebagai jawaban adalah: “Jaringan komputer adalah sebuah sistem yang menghubungkan lebih dari satu komputer secara bersama-sama”. Tentunya sesuai dengan bacaan mana yang dipilih. Dengan bacaan yang berbeda, tentu kalimat yang dikembalikan sebagai jawaban pun akan berbeda. Tujuan Tujuan penelitian ini adalah mengimplementasikan sistem temu kembali informasi menggunakan kueri pertanyaan (question answering) untuk dokumendokumen reading comprehension berbahasa Indonesia. Metode yang digunakan adalah metode rule-based. Tujuan yang kedua adalah menganalisis akurasi sistem ini dalam menemukembalikan jawaban yang benar. Ruang Lingkup Ruang lingkup penelitian ini terbatas pada proses menemukan kalimat jawaban
pada suatu dokumen reading comprehension sesuai dengan kueri pertanyaan yang diberikan. Dalam penelitian ini, pertanyaan hanya ditujukan untuk satu dokumen, seperti sistem Quarc (Question Answering for Reading Comprehension) yang telah dikembangkan oleh Riloff dan Thelen (2000). Penelitian ini mengacu pada sistem Quarc tersebut. Bedanya, Quarc adalah sistem yang dikembangkan untuk dokumen berbahasa Inggris, sedangkan penelitian ini dikembangkan untuk dokumen berbahasa Indonesia. Hal ini tentunya akan berpengaruh pada rules yang disusun, karena struktur bahasa Indonesia berbeda dengan struktur bahasa Inggris.
TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi. Sistem temu kembali informasi seharusnya dapat menyediakan kemudahan akses informasi bagi pengguna. Namun, identifikasi kebutuhan informasi bukanlah hal yang sederhana. Pengguna harus menerjemahkan kebutuhan informasinya menjadi sebuah kueri agar dapat diproses oleh sistem temu kembali informasi. Dengan adanya kueri yang diberikan oleh pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dan sesedikit mungkin (atau bahkan tidak sama sekali) mengembalikan informasi yang tidak relevan terhadap yang diinginkan oleh pengguna (Baeza-Yates & Ribeiro-Neto, 1999). Question Answering Question Answering (QA) merupakan aplikasi nyata dari teknologi NLP (Natural Language Processing). Tujuan utama Question Answering (QA) yaitu menampilkan jawaban atas pertanyaan yang diberikan pengguna. Ide utama QA adalah (Lin, 2004): -
-
menentukan tipe semantik jawaban yang diharapkan. Contoh: Pertanyaan ”Siapa yang memenangkan nobel perdamaian pada tahun 1991?” mencari ORANG. mengembalikan dokumen-dokumen yang memiliki keywords seperti pada pertanyaan. Contoh: mengembalikan dokumen yang memiliki keywords ”menang”, ”nobel perdamaian”, dan ”1991”.
2
-
mencari entitas dengan tipe yang sesuai dengan pertanyaan, yang dekat dengan keywords. Contoh: mencari ORANG yang dekat dengan keywords ”menang”, ”nobel perdamaian”, dan ”1991”.
Quarc (Question Answering for Reading Comprehension) Quarc adalah suatu sistem yang dikembangkan oleh Riloff dan Thelen (2000). Cara kerjanya, suatu dokumen diberi kueri pertanyaan, kemudian sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut. Suatu rule dapat memberikan empat kemungkinan besarnya nilai: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20). Kalimat yang memiliki nilai terbanyak akan dikembalikan sebagai jawaban atas kueri pertanyaan tadi. Riloff dan Thelen (2000) membagi rules menjadi enam rules, seperti yang tercantum pada Gambar 1 sampai Gambar 6. Menurut Riloff dan Thelen (2000), sistem Quarc yang dikembangkan belum menggunakan pemahaman bahasa yang dalam. Hal ini mengakibatkan secara umum sistem tersebut hanya mampu mencapai akurasi sebesar 40%.
Gambar 1 WHO Rules (Riloff & Thelen, 2000)
Gambar 2 WHEN Rules (Riloff & Thelen, 2000)
Gambar 3 WHERE Rules (Riloff & Thelen, 2000)
Gambar 4 WHAT Rules (Riloff & Thelen, 2000)
Gambar 5 WHY Rules (Riloff & Thelen, 2000)
Gambar 6 DATELINE Rules (Riloff & Thelen, 2000) Parsing Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Bagian dasar dalam parsing adalah algoritma pengambil token dari teks yang disebut tokenizer. Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Dalam proses ini biasanya juga digunakan sebuah daftar kata buang (stoplist) yakni daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau kueri, misalnya: yang, hingga, dan dengan (Ridha, 2002).
3
Stemming Menurut Porter (1980), stemming adalah proses pemotongan imbuhan dari kata untuk mendapatkan kata dasarnya. Penggunaan utama dari stemming adalah sebagai bagian penting dalam proses normalisasi yang biasanya dilakukan ketika membangun sistem temu kembali informasi. Dengan proses stemming, kata mencanangkan akan dipotong menjadi men-canang-kan, sehingga didapatkan kata dasarnya canang.
METODE PENELITIAN Gambaran Umum Sistem Dokumen
Parsing Kalimat-kalimat
Koleksi Dokumen Pengujian Sesuai dengan tujuan penelitian, dokumen yang digunakan dalam penelitian ini adalah dokumen-dokumen untuk reading comprehension. Penulis mengambil bacaanbacaan yang terdapat pada buku mata pelajaran Bahasa Indonesia untuk SD kelas IV. Dokumen-dokumen tersebut dipilih karena struktur dan tata bahasa dalam bacaan mata pelajaran Bahasa Indonesia cukup sederhana dan teratur. Banyaknya dokumen yang digunakan adalah sebanyak 24 dokumen. Masing-masing dokumen tersebut nantinya akan diberi kueri berupa pertanyaan dengan lima tipe pertanyaan. Contoh dokumen yang digunakan dapat dilihat pada Lampiran 1.
Kueri
Parsing
Stemming
Token-token
kemudian masuk ke dalam rules sesuai dengan tipe kueri yang diberikan. Kalimatkalimat jawaban akan dikembalikan sesuai dengan ambang batas yang digunakan dan terurut dari yang memiliki nilai paling tinggi.
Token-token
WordMatch
Rules
Kalimat jawaban
Gambar 7 Gambaran umum sistem Langkah pertama dalam menggunakan sistem ini adalah dengan mengambil satu buah dokumen berekstensi teks (*.txt). Kemudian, dokumen tersebut dipecah menjadi kalimatkalimat yang dimasukkan ke dalam database. Pengguna memasukkan kueri berupa kalimat tanya. Dalam proses pencarian jawaban yang relevan, setiap kalimat dokumen dan kalimat kueri sama-sama masuk ke dalam proses parsing dan stemming yang akan menghasilkan token-token. Token-token pada setiap kalimat dokumen dan kalimat kueri dibandingkan dalam proses WordMatch,
Parsing dan Wordmatch Setiap dokumen yang diproses dalam sistem dipecah menjadi kalimat-kalimat. Pemecahan (parsing) dokumen ini hanya didasarkan pada adanya separator titik (”.”). Kemudian setiap kalimat itu akan kembali dipecah menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri akan dipecah menjadi token-token. Token-token dari setiap kalimat dokumen dan token-token dari kueri yang telah di-stem akan dibandingkan. Setiap token yang sama dari suatu kalimat dokumen dan kueri akan memberikan nilai clue (+3) pada kalimat tersebut. Pembandingan inilah yang disebut proses WordMatch. Identifikasi Tipe Pertanyaan Ada beberapa tipe pertanyaan yang digunakan dalam bahasa Indonesia, yaitu: 1.
APA, yang menanyakan suatu definisi, tujuan, manfaat, kata benda, baik abstrak maupun kongkret (tidak termasuk di dalamnya yes/no question)
2.
SIAPA, yang menanyakan orang atau makhluk hidup lain yang melakukan sesuatu.
3.
KAPAN, yang menanyakan terjadinya suatu peristiwa.
4.
MANA, yang menanyakan tempat.
5.
MENGAPA, yang menanyakan sebab terjadinya sesuatu.
waktu
4
Dalam penelitian ini, tipe pertanyaan BAGAIMANA tidak diikutsertakan, karena jawabannya adalah suatu penjelasan. Begitu pula dengan tipe pertanyaan MANA yang menanyakan suatu pilihan. Akhiran –KAH juga tidak digunakan dalam hal ini. Pengelompokan Tipe Jawaban Untuk dapat menemukan jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya adalah pengelompokan tipe jawaban. Tipe jawaban ini disusun dalam suatu kamus. 1.
2.
3.
ORANG, jawaban dari pertanyaan SIAPA, yang dapat diidentifikasi dengan adanya titel, panggilan (misalnya Bapak), dapat pula menyatakan suatu pekerjaan (misalnya penulis). Tipe jawaban ini disimpan dalam kamus bernama kamus_orang.txt. WAKTU, jawaban dari pertanyaan KAPAN, terdiri dari hari dan bulan. Tipe jawaban ini disimpan dalam kamus bernama kamus_waktu.txt.
2.
Score(S) += WordMatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk 3.
Algoritma Rules 1. “APA” Score(S) += WordMatch (Q,S) If contains (Q, {tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident Elseif contains (Q,maksud) and contains (S,{adalah,ialah}) then Score(S) += slam_dunk Elseif contains (S,{adalah,ialah}) then Score(S) +=confident
“KAPAN” Score(S) += WordMatch(Q,S) If contains (S, WAKTU) and contains (S,{saat,ketika,kala,semenjak,sejak,waktu, setelah,sebelum}) then Score(S) += slam_dunk If contains (S,WAKTU) then Score(S) += good_clue If contains (S,{saat,ketika,kala,semenjak, sejak,waktu,setelah,sebelum}) then Score(S) += good_clue
4.
“ MANA” Score(S) += WordMatch(Q,S) If contains (S,TEMPAT) and contains (S, {dalam,dari,pada }) then Score(S) += slam_dunk
TEMPAT, jawaban dari pertanyaan MANA, terdiri dari beberapa nama kota di Indonesia dan beberapa nama negara. Tipe jawaban ini disimpan dalam kamus bernama kamus_tempat.txt.
Selain mengelompokkan tipe jawaban, untuk memperoleh jawaban yang akurat tentu saja disertai implementasi rules yang dijelaskan pada sub bab algoritma rules. Untuk jawaban dari pertanyaan MENGAPA langsung diimplementasikan dalam sistem. Caranya adalah dengan mengidentifikasi kata ’sebab’, ’karena’, dan sejenisnya dari proses tokenizer. Begitu pula dengan jawaban dari pertanyaan APA langsung diimplementasikan dalam sistem.
“SIAPA”
If contains (S,{dalam,dari,pada}) then Score(S) += clue If contains (S,TEMPAT) then Score(S) += good_clue 5.
“MENGAPA” Score(S) += WordMatch(Q,S) If contains (S,{karena,sebab,akibat, maka}) then Score(S) += confident
Keterangan: S = sentence (kalimat dokumen) Q = query (kalimat kueri) Temu Kembali Jawaban Dalam WordMatch, setiap token pada kalimat dokumen yang sama dengan token pada kueri akan diberi nilai clue (+3). Tiap petunjuk pada kalimat dalam dokumen akan mendapatkan nilai berdasarkan rules yang ada, sesuai dengan tingkat relevansinya terhadap kueri pertanyaan yang diberikan. Dalam hal ini, ada empat tingkatan nilai, yakni (Rillof & Thelen, 2000): • • • •
clue (+3), good_clue (+4), confident (+6), slam_dunk (+20).
5
Kalimat yang mendapatkan nilai paling banyak akan ditemukembalikan sebagai jawaban dari kueri pertanyaan yang diberikan. Namun kalimat yang ditemukembalikan bisa jadi tidak hanya satu, karena ada kemungkinan beberapa kalimat yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga bergantung pada ambang batas nilai (threshold of score) yang digunakan. Ambang Batas Nilai (Threshold of Score) Ambang batas ini berguna untuk membatasi nilai terendah dari kalimat-kalimat yang ditemukembalikan. Ambang batas yang digunakan dalam penelitian ini adalah 1 sampai 12. Jika menggunakan ambang batas 1, maka kalimat-kalimat jawaban yang ditemukembalikan oleh sistem adalah kalimatkalimat yang memiliki nilai lebih dari 1, begitu pula dengan ambang batas yang lainnya. Evaluasi Sistem Temu Kembali Informasi Metode yang digunakan untuk mengevaluasi sistem temu kembali informasi ini adalah dengan melihat banyaknya kalimat jawaban yang ditemukembalikan dan banyaknya hasil yang benar maupun yang salah. Semakin banyak hasil yang benar, tentu kinerja sistem akan semakin tinggi. Setiap kueri hanya memiliki satu kalimat jawaban atau tidak sama sekali, sehingga semakin banyak kalimat yang ditemukembalikan sebagai jawaban dari suatu kueri, justru menurunkan kinerja sistem. Asumsi-asumsi 1. Kueri pertanyaan dibuat sendiri oleh penulis, 2. Kamus yang digunakan dibuat secara manual oleh penulis, 3. Rules yang digunakan dibuat sendiri berdasarkan asumsi penulis dengan mengacu pada rules yang dibuat oleh Riloff dan Thelen (2000), 4. Threshold of score yang digunakan adalah 1 sampai 12, 5. Kalimat jawaban yang relevan terhadap suatu kueri hanya satu kalimat atau tidak ada sama sekali. Daftar kueri yang digunakan dan jawaban yang benar (relevance judgement) dapat dilihat pada Lampiran 2.
Lingkungan Implementasi Lingkungan implementasi digunakan adalah sebagai berikut:
yang
• Perangkat lunak: Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2003 Microsoft Access 2003 • Perangkat keras: Prosesor Intel Pentium IV 2.4 GHz RAM 256 MB Harddisk dengan kapasitas 40 GB
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Dokumen-dokumen yang terdapat dalam koleksi disimpan dalam berkas teks (*.txt) dan tidak diberi tag-tag tertentu seperti XML atau HTML, tetapi hanya teks biasa. Hal ini disebabkan karena tag-tag yang biasa digunakan dalam koleksi dokumen (corpus) untuk temu kembali tidak berpengaruh positif dalam sistem ini. Parsing dan WordMatch Algoritma parsing dokumen menjadi kalimat-kalimat berdasarkan separator titik (”.”) dibuat sendiri oleh penulis. Namun untuk parsing kalimat-kalimat dokumen dan kalimat kueri menjadi token-token serta algoritma stemming, penulis memanfaatkan algoritma yang sudah ada di laboratorium temu kembali informasi. Algoritma WordMatch juga dibuat sendiri oleh penulis. Algoritma WordMatch membandingkan token-token pada setiap kalimat dokumen dengan token-token pada kalimat kueri, yang telah melalui proses stemming. Setiap token yang sama akan menambahkan nilai clue (+3) pada kalimat dokumen tersebut. Hasil Percobaan Berdasarkan Ambang Batas Nilai (Threshold of Score) Percobaan dilakukan pada setiap dokumen. Dokumen yang digunakan sebanyak 24 dokumen, yang masing-masing diberi lima tipe kueri. Dalam satu ambang batas, percobaan dilakukan sebanyak 120 kali. Dari hasil percobaan yang diperoleh dapat disimpulkan bahwa: ¾ untuk ambang batas 1: - total banyaknya jawaban yang ditemukembalikan adalah 1701,
6
¾
untuk ambang batas 2: - total banyaknya jawaban yang ditemukembalikan adalah 1701, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah 14 kalimat, - banyaknya hasil yang benar adalah 93 (77,5%).
untuk ambang batas 8: - total banyaknya jawaban yang ditemukembalikan adalah 300, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah dua kalimat, - banyaknya hasil yang benar adalah 99 (82,5%).
¾
¾ untuk ambang batas 3: - total banyaknya jawaban yang ditemukembalikan adalah 725, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah enam kalimat, - banyaknya hasil yang benar adalah 92 (76,667%).
untuk ambang batas 9: - total banyaknya jawaban yang ditemukembalikan adalah 171, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat, - banyaknya hasil yang benar adalah 84 (70%).
¾
untuk ambang batas 10: - total banyaknya jawaban yang ditemukembalikan adalah 163, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat, - banyaknya hasil yang benar adalah 83 (69,167%).
¾
untuk ambang batas 11: - total banyaknya jawaban yang ditemukembalikan adalah 163, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat, - banyaknya hasil yang benar adalah 83 (69,167%).
¾
¾
¾
¾
rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah 14 kalimat, banyaknya hasil yang benar adalah 93 (77,5%).
untuk ambang batas 4: - total banyaknya jawaban yang ditemukembalikan adalah 657, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah lima kalimat, - banyaknya hasil yang benar adalah 92 (76,667%). untuk ambang batas 5: - total banyaknya jawaban yang ditemukembalikan adalah 657, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah lima kalimat, - banyaknya hasil yang benar adalah 92 (76,667%). untuk ambang batas 6: - total banyaknya jawaban yang ditemukembalikan adalah 326, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah tiga kalimat, - banyaknya hasil yang benar adalah 96 (80%).
¾ untuk ambang batas 7: - total banyaknya jawaban yang ditemukembalikan adalah 300, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah dua kalimat, - banyaknya hasil yang benar adalah 99 (82,5%).
¾ untuk ambang batas 12: - total banyaknya jawaban yang ditemukembalikan adalah 130, - rata-rata banyaknya jawaban yang ditemukembalikan dalam satu kali percobaan adalah satu kalimat, - banyaknya hasil yang benar adalah 69 (57,5%). 100 95 prosentase hasil yang benar
-
90 85 80 75 70 65 60 55 50 1
2
3
4
5
6
7
8
9
10
11
threshold of score
Gambar 8 Prosentase hasil yang benar
12
7
Yang dimaksud dengan hasil yang benar di sini adalah jika ada jawaban yang relevan dan berhasil ditemukembalikan walaupun mungkin tidak memiliki nilai tertinggi, atau jika jawaban yang relevan itu tidak ada dalam dokumen dan memang tidak ada jawaban yang ditemukembalikan. Yang dimaksud hasil yang salah adalah jika ada jawaban yang relevan tapi tidak berhasil ditemukembalikan, atau jika jawaban yang relevan tidak ada dalam dokumen namun sistem menemukembalikan jawaban yang lain. Evaluasi Sistem Temu Kembali Informasi Berdasarkan Ambang Batas Nilai (Threshold of Score) Tujuan dari temu kembali informasi yaitu menemukembalikan informasi yang relevan dan sesedikit mungkin menemukembalikan informasi yang tidak relevan. Dalam sistem ini, informasi atau jawaban yang relevan terhadap suatu kueri hanya satu kalimat saja atau tidak ada sama sekali, sedangkan kalimat-kalimat yang lain ditemukembalikan karena memiliki nilai di atas ambang batas yang telah ditentukan. Dari Gambar 8 di atas, terlihat bahwa kinerja sistem paling tinggi tercapai saat pemakaian ambang batas 7 dan 8. Dengan ambang batas 7 dan 8, banyaknya hasil yang benar mencapai 82,5%, dan banyaknya jawaban yang dikembalikan cukup sedikit yaitu rata-rata hanya dua kalimat. Untuk pemakaian ambang batas 12, kinerja sistemnya paling rendah dalam hal banyaknya hasil yang benar yang hanya 69 (57,5%). Pada pemakaian ambang batas 1 dan 2 mengembalikan jawaban yang paling banyak yaitu rata-rata mencapai 14 kalimat. Dari hal tersebut dapat dikatakan bahwa kinerja sistem dengan ambang batas 1 dan 2 adalah yang paling rendah dalam hal banyaknya jawaban yang tidak relevan. Evaluasi Berdasarkan Rules Setiap rules yang dibuat tentunya tidak memiliki kinerja yang sama, sehingga perlu untuk dievaluasi. Hasilnya dapat dilihat pada tabel-tabel berikut:
Tabel 1 Evaluasi rules ”APA” Ambang batas
Prosentase hasil yang benar/kali percobaan
1
100% (24/24)
2
100% (24/24)
3
100% (24/24)
4
100% (24/24)
5
100% (24/24)
6
91,67% (22/24)
7
91,67% (22/24)
8
91,67% (22/24)
9
58,33% (14/24)
10
58,33% (14/24)
11
58,33% (14/24)
12
33,33% (8/24)
Rata-rata
81,944%
Dari Tabel 1 di atas terlihat bahwa rules ”APA” mencapai kinerja paling tinggi saat menggunakan ambang batas 1 sampai 5. Jadi, kalimat jawaban yang relevan rata-rata memiliki nilai kurang dari atau sama dengan 6 (0 < nilai jawaban ≤ 6) dan sistem relatif tidak mengembalikan kalimat jika dalam dokumen memang tidak ada jawaban yang relevan. Penurunan kinerja dari penggunaan ambang batas 9 sampai 12 yang cukup drastis disebabkan karena sebagian besar jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 9, dan tidak ditemukembalikan saat penggunaan ambang batas 9 sampai 12.
8
Tabel 2 Evaluasi rules ”SIAPA” Ambang batas
Prosentase hasil yang benar/kali percobaan
12. Jika tidak ada kalimat yang bernilai lebih dari 12, maka tidak ada kalimat jawaban yang ditemukembalikan. Hal ini menjadi hasil yang benar jika kueri yang diberikan memang tidak mempunyai jawaban yang relevan dari dokumen yang diproses.
1
79,17% (19/24)
2
79,17% (19/24)
3
75% (18/24)
4
75% (18/24)
5
75% (18/24)
1
58,33% (14/24)
6
75% (18/24)
2
58,33% (14/24)
7
75% (18/24)
3
58,33% (14/24)
8
75% (18/24)
4
58,33% (14/24)
9
58,33% (14/24)
5
58,33% (14/24)
10
58,33% (14/24)
6
66,67% (16/24)
11
58,33% (14/24)
7
79,167% (19/24)
12
50% (12/24)
8
79,167% (19/24)
69,44%
9
87,5% (21/24)
10
79,167% (19/24)
11
79,167% (19/24)
12
79,167% (19/24)
Rata-rata
Dari Tabel 2 di atas terlihat bahwa rules ”SIAPA” mencapai kinerja paling tinggi saat menggunakan ambang batas 1 dan 2, dan kinerja paling rendah pada saat menggunakan ambang batas 12. Hal ini berarti kalimat jawaban yang relevan terhadap kueri rata-rata bernilai di bawah 12 (0 < nilai jawaban ≤ 12). Penurunan kinerja dengan dinaikkannya ambang batas, terutama pada ambang batas 9 sampai 12, disebabkan karena ada sebagian jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 9, dan tidak ditemukembalikan saat penggunaan ambang batas 9 sampai 12. Berbeda dengan rules ”APA” dan rules ”SIAPA”, rules ”KAPAN” justru mengalami peningkatan kinerja saat ambang batas dinaikkan. Hal ini disebabkan karena banyak kueri bertipe ”kapan” yang sebenarnya tidak memiliki jawaban yang relevan dalam dokumen. Sistem tetap mengembalikan kalimat-kalimat jawaban dari kueri itu karena adanya proses WordMatch, di mana setiap token dari setiap kalimat dokumen yang sama dengan token pada kueri akan menghasilkan nilai untuk kalimat dokumen tersebut sebesar 3. Jadi, jika ada satu saja token yang sama, kalimat dokumen itu akan bernilai 3. Dengan adanya ambang batas yang besar (12), maka yang ditemukembalikan oleh sistem hanya kalimat-kalimat yang memiliki nilai lebih dari
Tabel 3 Evaluasi rules ”KAPAN” Ambang batas
Rata-rata
Prosentase hasil yang benar/kali percobaan
70,138%
Tabel 4 Evaluasi rules ”MANA” Ambang batas
Prosentase hasil yang benar/kali percobaan
1
79,17% (19/24)
2
79,17% (19/24)
3
79,17% (19/24)
4
79,17% (19/24)
5
79,17% (19/24)
6
75% (18/24)
7
75% (18/24)
8
75% (18/24)
9
54,167% (13/24)
10
58,33% (14/24)
11
58,33% (14/24)
12
50% (12/24)
Rata-rata
70,138%
9
Dari Tabel 4 di atas terlihat bahwa pada rules ”MANA” mencapai kinerja paling tinggi pada penggunaan ambang batas 1 sampai 5. Hal ini berarti kalimat jawaban yang relevan rata-rata bernilai kurang atau sama dengan 6 (0 < nilai jawaban ≤ 6). Kinerja yang semakin menurun dengan dinaikkannya ambang batas, disebabkan karena ada sebagian jawaban yang relevan bernilai kurang dari atau sama dengan 12 (0 < nilai jawaban ≤ 12), yang masih dapat ditemukembalikan saat penggunaan ambang batas di bawah 12, dan tidak ditemukembalikan saat penggunaan ambang batas 12.
Tabel 6 Evaluasi keseluruhan rules
Tabel 5 Evaluasi rules ”MENGAPA”
Secara keseluruhan, dari tabel-tabel di atas dapat dilihat bahwa rules ”APA” mempunyai akurasi yang paling tinggi, sedangkan yang mempunyai akurasi paling rendah adalah rules ”SIAPA”. Akurasi ratarata rules adalah 74,65%.
Ambang batas
Prosentase hasil yang benar/kali percobaan
1
70,83% (17/24)
2
70,83% (17/24)
3
70,83% (17/24)
4
70,83% (17/24)
5
70,83% (17/24)
6
91,67% (22/24)
7
91,67% (22/24)
8
91,67% (22/24)
9
91,67% (22/24)
10
91,67% (22/24)
11
91,67% (22/24)
12
75% (18/24)
Rata-rata
81,6%
Dari Tabel 5 di atas terlihat bahwa rules ”MENGAPA” mencapai kinerja paling tinggi saat penggunaan ambang batas 6 sampai 11. Hal ini berarti sebagian besar kalimat jawaban bernilai lebih dari 6 dan kurang dari atau sama dengan 12 (6 < nilai jawaban ≤ 12). Peningkatan kinerja dari pemakaian ambang batas 1 samapi 5 ke 6 sampai 11 disebabkan karena ada kueri yang tidak memiliki jawaban yang relevan namun dengan ambang batas 1 sampai 5 sistem tetap mengembalikan kalimat-kalimat jawaban (walaupun tidak relevan) karena kalimat-kalimat itu bernilai kurang atau sama dengan 6, yang tidak akan dikembalikan saat penggunaan ambang batas 6 sampai 11.
Rules
Akurasi
APA
81,944%
SIAPA
69,44%
KAPAN
70,138%
MANA
70,138%
MENGAPA
81,597%
Rata-rata
74,65%
Kelebihan dan Kelemahan Sistem Question Answering System (QAS) untuk temu kembali informasi berbahasa Indonesia belum pernah dibuat sebelumnya. Oleh karena itu, sistem ini dapat digunakan sebagai langkah awal untuk membangun QAS berbahasa Indonesia yang lebih kompleks. Kelemahan dari sistem ini adalah akurasi sistem yang cukup tinggi tersebut hanya berlaku pada penelitian ini saja. Hal ini disebabkan karena: - Penentuan kueri yang subjektif dari penulis sendiri, - Dokumen yang digunakan mengalami beberapa kali perbaikan seiring percobaan-percobaan yang dilakukan, - Kamus dibuat secara manual oleh penulis dan berubah seiring percobaan-percobaan yang dilakukan.
KESIMPULAN DAN SARAN Kesimpulan Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa metode rule-based dapat diterapkan untuk implementasi question answering system (QAS) untuk temu kembali informasi reading comprehension berbahasa Indonesia. Kinerja sistem tertinggi dicapai saat menggunakan ambang batas 7 dan 8, yang mengembalikan rata-rata tiga kalimat dan banyaknya hasil yang benar mencapai 82,5%. Dari evaluasi berdasarkan rules, rules ”APA” mempunyai kinerja yang paling tinggi, dan akurasi rata-
10
rata rules adalah 74,65%. Namun, akurasi yang cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan berbagai asumsi yang digunakan. Saran Untuk penelitian-penelitian selanjutnya disarankan supaya: - Menambahkan Part of Speech Tagging (POS Tagging) untuk mengidentifikasi jenis kata (kata kerja, kata benda, kata sifat, dan sebagainya), agar kinerja sistem dapat ditingkatkan, - Membuat kamus automatis agar hasil yang dicapai lebih objektif, - Membuat sistem dengan masukan lebih dari satu dokumen (multi dokumen) dalam sekali percobaan, - Membuat WordMatch yang tidak hanya simple matching, misalnya dengan matriks kesamaan, - Menyempurnakan rules agar dapat digunakan untuk dokumen-dokumen selain reading comprehension.
DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. AddisonWesley. Lin J. 2004. An Introduction to Information Retrieval and Question Answering. College of Information Studies University of Maryland. Porter M. 1980. The Porter Stemming Algorithm. http://www.tartarus.org/ ~martin/ PorterStemmer/ [2 januari 2006]. Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Riloff E, Thelen M. 2000. A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL2000 Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding Systems.
LAMPIRAN
12
Lampiran 1 Contoh dokumen dalam koleksi Kegemaran Perlu Dikembangkan. Semua siswa dan guru mengenal Tigor dari segi kegemarannya. Kegemaran Tigor adalah menggambar atau melukis. Kegemarannya itu sering dibicarakan oleh Pak Laode, guru Tigor, dengan orang tuanya. Pembicaraan itu berlangsung setiap pertemuan saat pengambilan rapor. Pak Gultom amat bangga melihat melihat bakat Tigor. Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas. Tigor sedang membaca buku di teras depan rumahnya. Tiba-tiba ia mendengar panggilan ayahnya. "Gor, coba lihat! Apa yang Ayah bawa?" tanya Pak Gultom sambil mengangkat bawaannya. Tigor langsung menyambut ayahnya. Lalu, ia mencium tangan ayahnya dengan sopan. "Wow! Inilah yang saya idam-idamkan selama ini. Terima kasih, Yah!" kata Tigor. Ya, Ayah memberinya seperangkat alat melukis baru. Alat-alat melukis yang baru dibelikan Pak Gultom tidak seperti biasanya. Kualitasnya lebih baik dan harganya cukup mahal. Itulah yang membuat hati Tigor lebih senang dan gembira. Tigor menggunakan alat-alat lukis pemberian ayahnya dengan baik. Setiap hari minggu waktu luang, Tigor selalu melukis. Akhirnya dalam waktu satu bulan, Tigor mampu menghasilkan tiga lukisan yang layak untuk dipajang. Tigor senang melukis pemandangan alam, seperti suasana pantai atau pegunungan. Semuanya ia lukis dengan cat air. Melihat lukisan anaknya cukup bagus, Pak Gultom membelikan tiga buah bingkai. Dua hari kemudian, lukisan-lukisan Tigor sudah dibingkai. Pak Gultom lalu memajang hasil karya anaknya di ruang tamu dan ruang kerjanya. Baginya, rasa lelah hilang setelah memandang lukisan anaknya itu. Kegemaran dan bakat yang dimiliki oleh Tigor ini dimanfaatkan oleh Pak Laode. Ia mengikutsertakan Tigor dalam lomba melukis siswa SD/MI tingkat kecamatan. Tigor sangat senang dapat kesempatan mengikuti lomba tersebut. Dalam hati berkata,"Inilah saatnya menguji kemampuanku." Sejak saat itu Tigor pun mempersiapkan diri sebaik mungkin. Saat lomba berlangsung, Tigor hanya membawa alat-alat lukis yang diperlukan. Ia melukis dengan cepat menggunakan cat air. Hanya dalam waktu 35 menit ia mampu menyelesaikan lukisannya dengan baik. Para juri sangat kagum dengan lukisan Tigor. Akhirya, lukisan Tigor dinyatakan sebagai lukisan terbaik. Tiga hari kemudian Tigor mengikuti lomba melukis di tingkat kabupaten. Ia pun berhasil memperoleh juara pertama. Ia mendapatkan piala, piagam, dan uang tabungan sebesar Rp.500.000,00. Seminggu kemudian Tigor dikirim lagi ke tingkat provinsi. Di sini Tigor bersaing dengan pelukispelukis cilik dari berbagai kabupaten. Semangatnya untuk menang jadi kian bertambah. Dua hari setelah perlombaan usai, Bapak Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur. Isi surat tersebut disampaikan oleh Bapak Kepala Sekolah saat upacara hari Senin. "Anak-anak, kemarin Bapak menerima surat pemberitahuan dari kantor gubernur. Isi surat tersebut sebagai berikut: Siswa Saudara yang bernama Tigor, kelas 4, anak dari Bapak Gultom, dinyatakan sebagai juara pertama lomba melukis tingkat provinsi. Untuk itu, ia berhak mengikuti lomba melukis tingkat nasional di Jakarta." Mendengar pengumuman tersebut, spontan anak-anak pun bersorak. "Hidup Tigor! Hidup Tigor!" Beberapa saat kemudian, Tigor dipersilakan maju untuk menyampaikan sambutan singkat. Tigor berdiri di samping Kepala Sekolah. Matanya tampak berkaca-kaca, tetapi bibirnya tersenyum manis. Setelah mampu menguasai diri, ia pun mulai berbicara.
13
Lampiran 2 Dokumen koleksi, kueri, jawaban yang diharapkan, dan threshold of score yang digunakan
No. 1
Nama File bbsi001.txt
Kueri Apa kegemaran Tigor Siapa yang membelikan Tigor alat-alat lukis
Kapan Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur Di mana lomba lukis nasional diadakan Mengapa Pak Gultom membelikan alat lukis untuk Tigor
2
bbsi002.txt
Kemampuan apa yang dimiliki Ular Emas Siapa yang ingin memiliki Ular Emas itu Kapan ular pergi dari istana Di mana ular emas itu hidup
Mengapa Ular itu dinamakan Ular Emas
Jawaban yang diharapkan Kegemaran Tigor adalah menggambar atau melukis Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas Dua hari setelah perlombaan usai, Bapak Kepala Sekolah menerima surat pemberitahuan dari kantor gubernur Untuk itu, ia berhak mengikuti lomba melukis tingkat nasional di Jakarta Oleh karena itu, untuk mendukung bakat anaknya, Pak Gultom pun sering membelikan Tigor alat-alat lukis, seperti kuas, cat air, krayon, papan penyangga lukisan, dan kanvas Selain itu, ular itu mampu membuat kepingan emas dalam waktu singkat Sang Raja sangat ingin memiliki seekor ular emas yang hidup di sebuah hutan di ujung Pulau Sulawesi (tidak ada) Sang Raja sangat ingin memiliki seekor ular emas yang hidup di sebuah hutan di ujung Pulau Sulawesi Ular tersebut dinamakan ular emas karena kulitnya seperti emas
Threshold of score yang digunakan untuk mencapai hasil yang optimal 6-11 12
6-12
9-12 12
6-8 12
9-12 12
9-12
14
Lampiran 2 lanjutan No.
3
Nama File
Kueri
bbsi003.txt
Apa yang dimaksud prangko Siapa julukan penulis Kapan penulis meraih juara pertama Prangko yang dikumpulkan dimasukkan ke mana Mengapa kita perlu berdisiplin
4
bbsi004.txt
Apa tujuan pokok upacara bendera
Siapa yang menjadi pembina upacara Kapan upacara bendera dilaksanakan Di mana para guru berdiri saat upacara Mengapa kita harus berperilaku sopan terhadap siapapun
5
bbsi005.txt
Apa disiplin itu Siapa yang harus mematuhi tata tertib sekolah Kapan disiplin nasional dicanangkan
Jawaban yang diharapkan Prangko adalah bea atau ongkos pengiriman surat tersebut Nah, beberapa temanku yang tahu kegemaranku itu kini menjulukiku sebagai "si filetelis muda" Saat di sekolah diadakan lomba fileteli, aku berhasil meraih juara pertama Prangko-prangko tersebut lalu kukumpulkan dan kumasukkan ke dalam album khusus prangko (tidak ada)
Threshold of score yang digunakan untuk mencapai hasil yang optimal 6-12 1-2
7-12
6-11
6-12
Tujuan pokok kegiatan ini adalah melatih dan mendidik para siswa untuk disiplin, berani, dan bertanggung jawab Yang terakhir memasuki lapangan upacara adalah pembina upacara, yaitu Bapak Kepala Sekolah Kegiatan rutin seluruh siswa setiap Senin pagi adalah upacara bendera Tampak di belakang tiang bendera, para guru yang berdiri berjajar bersama kepala sekolah Jadi, dengan berperilaku sopan terhadap siapa pun, akan terbentuk kepribadian yang baik dalam diri kalian yang hidup di tengah masyarakat
9-11
Disiplin adalah ketaatan pada peraturan atau tata tertib (tidak ada)
3-8 6-12
(tidak ada)
7-12
6-8
6-9 6-8
6-12
15
Lampiran 2 lanjutan
No.
Nama File
Kueri Di mana saja kita harus berdisiplin
Mengapa semua tindakan harus dilakukan dengan disiplin
6
bbsi006.txt
Apa tujuan okulasi jambu itu
Siapa yang diajak Tigor bermain di kebunnya Kapan tukang kebun mulai melakukan okulasi Di mana Tigor mengambil pisau Mengapa mereka pergi ke kebun 7
bbsi007.txt
Pohon apa yang banyak tumbuh di pantai itu Siapa yang mengambil kayu kering Kapan kami pergi memancing Kami memancing di mana Mengapa ikannya banyak
Jawaban yang diharapkan Setelah tugas-tugas yang ringan ini dilaksanakan, kita lalu disiplin pada halhal yang lebih luas, misalnya mengikuti semua peraturan di rumah, di sekolah, dan akhirnya peraturan di masyarakat Jika semua pekerjaan dan tindakan dilakukan dengan disiplin, pasti akan selesai dengan sukses Untuk memindahkan tunas jambu air berbuah merah ke pohon jambu air yang berbuah hijau, Pak! jawab Aziz dan Tigor Suatu sore, Tigor mengajak Aziz bermain di kebunnya sambil menikmati beberapa jenis buah-buahan Setelah mendapatkan penjelasan dari Tigor dan Aziz, Bapak Tukang Kebun mulai melakukan okulasi (tidak ada)
Threshold of score yang digunakan untuk mencapai hasil yang optimal 3-5
12
6-8
6-11
7-12
6-12
(tidak ada)
6-12
Kami menikmati keindahan pantai yang banyak ditumbuhi pohon bakau itu Setiba di sana, Aziz mengambil dua potong kayu kering Hari Minggu aku dan Aziz pergi memancing Kami memilih Pantai Tua sebagai tempat tujuan (tidak ada)
9-12
6-8 7-9 1-2 6-12
16
Lampiran 2 lanjutan No. Nama File 8
bbsi008.txt
Kueri Kincir air itu terbuat dari apa Siapa nama Kakek Aziz Kapan Kakek membuat kincir Ke mana penduduk mencari air jika kekeringan Mengapa pengairan sawah menjadi lancar
9
bbsi009.txt
Dengan apa si pemuda membajak sawah Siapa yang sedang memperhatikan kerbau dan si pemuda Kapan ular itu mati Di mana ular berada Mengapa pemuda itu memecut kerbaunya
10
bbsi010.txt
Dengan cara apa Aziz membeli buku Siapa nama petugas koperasi Kapan Aziz membeli buku Di mana Aziz membeli buku
Jawaban yang diharapkan Kincir air itu mereka buat dari barang-barang bekas yang ada di sekitar tempat tinggal mereka Kakek Aziz yang bernama Zaenudin adalah pelopor pembuatan kincir air di desanya (tidak ada) Penduduk harus mencari air ke sungai atau ke kaki bukit yang jaraknya jauh Jadi, berkat kincir air pengairan sawah menjadi lancar dan padi tumbuh subur Ia membajak dengan kerbaunya yang besar dan kuat Tak jauh dari tempat itu ada seekor ular yang sedang memperhatikan si kerbau dan si pemuda (tidak ada) Tak jauh dari tempat itu ada seekor ular yang sedang memperhatikan si kerbau dan si pemuda Kadang-kadang si pemuda memecut kerbaunya jika hewan itu malas-malasan dalam bekerja
Threshold of score yang digunakan untuk mencapai hasil yang optimal 9-12
3-7
7-8 6-8 6-11
3-5 12
6-12 6-8
9-11
Akhirnya, Aziz dapat membeli buku dengan mencicil pembayarannya di koperasi sekolah Tigor pun menghubungi Bu Indah, petugas koperasi (tidak ada)
9-11
Akhirnya, Aziz dapat membeli buku dengan mencicil pembayarannya di koperasi sekolah
6-8
3-5 9-12
17
Lampiran 2 lanjutan No. Nama File
Kueri Mengapa Aziz berangkat lebih pagi
11
bbsi011.txt
Apa yang terbawa ke dalam jaring
Siapa yang berubah menjadi buaya besar Kapan tanda pesan itu muncul Di mana Zaidin menunggu tanda dari orang tuanya Mengapa kampung itu dinamakan Kampung Nelayan 12
bbsi012.txt
Tempat apa saja yang kami kunjungi saat di Yogya
Siapa yang menjelaskan tempat yang dikunjungi Kapan ayah mengambil cuti Di mana kami bergabung dengan keluarga besar ayah Mengapa kami ke gunung Bromo
Jawaban yang diharapkan Hari itu Aziz berangkat lebih pagi karena ingin meminjam buku Bahasa Indonesia pada Tigor Pada waktu mereka mengangkat jaring untuk kesekian kalinya, dalam jaring itu terlihat sebutir telur yang amat besar Kedua suami istri itu perlahan-lahan berganti rupa menjadi dua ekor buaya besar Tanda itu akan terlihat bila hujan turun pada saat hari panas dan ada pelangi di langit Zaidin termenung di tepi danau menunggu tanda dari kedua orang tuanya Kampung itu bernama Kampung Nelayan karena sebagian besar warganya adalah nelayan
Threshold of score yang digunakan untuk mencapai hasil yang optimal 9-12
6-8
6-8
7-9
12 9-12
Tempat-tempat yang kami kunjungi selama di Yogya adalah keraton, Museum Yogya Kembali, Jalan Malioboro, dan pusat kerajinan perak di Kota Gede Pemandu wisata pun menjelaskan tiap tempat yang kami lalui
9-12
Saat libur semester ayahku mengambil cuti dari kantornya Dari Medan kami lalu bergabung dengan rombongan keluarga besar ayahku (tidak ada)
6-12
6-8
10-12
9-12
18
Lampiran 2 lanjutan No. Nama File 13
bbsi013.txt
Kueri Aziz dan Tigor pernah menang dalam lomba bidang apa Siapa yang membuka lomba Kapan kita memperingati Hari Pendidikan Nasional Di mana lomba itu diselenggarakan Mengapa mereka terharu
14
15
bbsi014.txt
bbsi015.txt
3-5 4-12
6-12
Keduanya gembira dan terharu karena mereka berhasil
3-11
Apa yang diperiksa dengan tensimeter Siapa yang menjengukku Kapan aku sakit Orang tuaku membawaku ke mana Mengapa aku jatuh sakit
Mulut, mata, perut, dan dadaku diperiksa dengan tensimeter Guru dan teman-teman menjengukku (tidak ada) Orang tuaku membawaku ke klinik yang tidak jauh dari rumah (tidak ada)
3-8
Apa pekerjaan Paman Toni Siapa yang menemani Tigor
Paman Toni adalah seorang dokter Tigor hanya ditemani Paman Toni yang datang dari Medan tadi siang Seusai makan, mereka berbincang-bincang di ruang tamu Malam itu rumah Tigor tampak sepi, karena orang tua Tigor sedang bertugas ke luar kota Malam itu rumah Tigor tampak sepi, karena orang tua Tigor sedang bertugas ke luar kota
9-11
Untuk makan sehari-hari saja, mereka harus mencari kayu bakar di hutan
9-12
Mengapa rumah Tigor sepi
bbsi016.txt
Sebelumnya, Aziz dan Tigor telah memenangkan lomba di tingkat kelurahan untuk bidang studi Matematika dan Sains Kepala Seksi Pendidikan Dasar membuka lomba Setiap tanggal 2 Mei kita memperingati Hari Pendidikan Nasional
Threshold of score yang digunakan untuk mencapai hasil yang optimal 12
(tidak ada)
Kapan mereka berbincangbincang Orang tua Tigor pergi ke mana
16
Jawaban yang diharapkan
Untuk apa mereka mencari kayu bakar
3-12 7-12 6-11 6-12
6-8 4-8 4-8
6-12
19
Lampiran 2 lanjutan No. Nama File
Kueri Siapa nama gadis itu Kapan Wari berpisah dengan ayahnya Di mana Wari mendengar suara yang menakutkan Mengapa mereka tinggal di pinggir hutan
17
lks001.txt
Apa keuntungan rajin membaca
Paman Handoko tinggal dengan siapa Kapan Paman Handoko datang Di mana paman Handoko tinggal Mengapa orang yang malas membaca tergolong orang merugi
18
lks002.txt
Semboyan apa yang perlu diingat pemakai jalan
Siapa yang mengatur kendaraan Kapan semua orang tampak sibuk Di mana bus kota berhenti
Jawaban yang diharapkan Wari, demikian nama gadis tersebut (tidak ada)
Threshold of score yang digunakan untuk mencapai hasil yang optimal 3-5 7-12
Ketika Wari sedang berada di hutan, tiba-tiba ia mendengar suara yang menakutkan (tidak ada)
7-12
Jika kita rajin membaca kita akan menjadi orang yang pintar kita juga akan menjadi orang yang berhasil dan berguna untuk masa depan kita (tidak ada)
3-5
Pada saat liburan semester ganjil lalu Paman Handoko datang (tidak ada)
9-12
6-12 7-12 10-12
Sebaliknya, orang yang malas membaca tergolong orang yang merugi, tertinggal oleh zaman dan menjadi orang yang buta ilmu pengetahuan," nasihat paman kepadaku
9-12
ada semboyan yang harus diingat oleh pemakai jalan berbunyi,"Lebih baik terlambat tiba di tempat tujuan daripada cepat sampai di rumah sakit" Pak polisi tampak sibuk mengatur kendaraan
9-12
Pagi hari semua orang tampak sibuk
6-12
Bus kota harus berhenti di halte dan masih banyak lagi disiplin lain yang harus kita patuhi
6-12
3-12
20
Lampiran 2 lanjutan No. Nama File
19
lks003.txt
Kueri Mengapa warga harus memiliki disiplin di jalan
Jika semua warga sudah memiliki disiplin yang tinggi, kemacetan dan kecelakaan dapat dihindari
Pak Madi beternak apa
Di samping itu, Pak Madi juga beternak kambing dan ayam kampung Pak Madi sekeluarga tinggal di pedesaan (tidak ada)
Siapa yang tinggal di pedesaan Kapan Dodo berulang tahun Ayam-ayam tidur di mana Mengapa ayam jadi kebingungan
20
21
lks004.txt
lks005.txt
Jawaban yang diharapkan
Pada malam hari ayamayam tersebut tidur di atas pohon di belakang rumah Ayam kebingungan karena matanya tertutup oleh contong
Threshold of score yang digunakan untuk mencapai hasil yang optimal 6-8
6-8 3-12 9-12 3-5 6-11
Kapas dan padi menggambarkan apa Siapa pembuat lambang koperasi Kapan lambang koperasi diresmikan Dari mana ide lambang itu terbentuk Mengapa manusia wajib berusaha
Kapas dan padi menggambarkan kemakmuran (tidak ada)
9-11
(tidak ada)
6-12
(tidak ada)
9-12
Dalam memenuhi kebutuhan hidup, manusia wajib berusaha
6-8
Apa ajaran Ki Hajar Dewantara yang terkenal
Beliau mewariskan ajarannya yang terkenal yaitu Ing ngarso sung tulodho, Ing madya mangun karso, Tut wuri handayani Setelah kembali ke tanah air pada tahun 1919, tanpa rasa takut, beliau melaksanakan niatnya membuka sebuah perguruan yang diberi nama Taman Siswa pada tanggal 3 Juli 1922
6-8
Siapa yang membuka perguruan Taman Siswa
6-12
3-12
21
Lampiran 2 lanjutan No. Nama File
Kueri Kapan beliau membuka perguruan Taman Siswa
Ki Hajar Dewantara diasingkan ke mana Mengapa tanggal 2 mei ditetapkan sebagai hardiknas
22
lks006.txt
Apa arti mencegah lebih baik daripada mengobati Keluarga siapa yang menerapkan hidup sehat Kapan rumah dikatakan sehat Di mana tempat menaruh obat Mengapa saat mandi harus memakai sabun
23
lks007.txt
Apa pekerjaan Pak Jono sebelum transmigrasi Siapa yang memberi petunjuk mengolah lahan pertanian Kapan Pak Jono pergi transmigrasi
Jawaban yang diharapkan Setelah kembali ke tanah air pada tahun 1919, tanpa rasa takut, beliau melaksanakan niatnya membuka sebuah perguruan yang diberi nama Taman Siswa pada tanggal 3 Juli 1922 Ki Hajar Dewantara ditangkap lalu diasingkan ke negeri Belanda
Threshold of score yang digunakan untuk mencapai hasil yang optimal 7-12
10-12
Untuk menghormati jasa Ki Hajar Dewantara maka setiap tanggal 2 Mei ditetapkan sebagai "Hari Pendidikan Nasional" (Hardiknas)
6-12
Mencegah lebih baik daripada mengobati, artinya, sebelum kita terserang penyakit, kita harus berusaha mencegahnya (tidak ada)
6-12
Rumah dikatakan sehat jika udara dan cahaya matahari dapat masuk dengan baik (tidak ada)
6-8
Supaya kotoran dapat hilang, kita mandi memakai sabun
9-12
3-12 12
Pak Jono adalah seorang pemulung barang bekas
9-11
Di daerah transmigrasi ia mengolah lahan pertanian atas petunjuk petugas pertanian (tidak ada)
6-11
10-12
22
Lampiran 2 lanjutan No. Nama File
24
lks008.txt
Kueri
Jawaban yang diharapkan
Threshold of score yang digunakan untuk mencapai hasil yang optimal 6-8
Pak Jono dan keluarganya tinggal di mana sebelum transmigrasi Mengapa pemerintah mencanangkan program transmigrasi
Ia beserta keluarganya tinggal di gubuk bedeng terbuat dari karton bekas, di bawah kolong jembatan (tidak ada)
6-12
Apa manfaat vitamin B
Vitamin B berguna untuk mencegah penyakit beriberi (tidak ada)
3-8
Siapa yang harus mengkonsumsi makanan bervitamin Kapan kita akan terserang penyakit rakhitis Di mana terdapat vitamin C Mengapa kita mudah terserang penyakit kulit
Jika kita kekurangan vitamin D ini, kita akan terserang penyakit rakhitis, tubuh kita kerdil Vitamin C terdapat pada sayur-sayuran segar yang berwarna hijau dan buahbuahan Jika kita kekurangan vitamin C akan mudah terserang penyakit kulit, badan kita lemah, gusi kita bengkak dan sariawan
9-12
12
3-5
9-12