ISSN eg8?-l,sbP
I I
II II
II rrr III
I
rrI
,e* fl1 '%"
+m
Division of Reseorrch ond Profussionol Seruice Telkom Polytechnic
,-' ,lt
SISTEM QUESTION A.NSWERING SEDERIIANA BERBASIS ONTOLOGI SEBAGAI APLIKASI WEB SEMANTIK R- Kristoforus Jawa Bendil lProgram
Studi Teknik Informatika STT Musi, Palembang
[email protected]
telah menjadi suatu kebutuhan bagi masyarakat modern. Namun peningkatan volume yang sangat pesat, menyebabkan mesin-mesin pencari yang tersedia saat ini tidak mampu
Ersi Epsi
qrdiakan
informasi yang secara spesifik dibutuhan oleh pengguna. Sistem guestlon answering berbasis sebagai perpaduan antara teknologi question answering dan semantie web dipandang sebagai ratu cara untuk mengatasi masalah tersebut.
Ai fl
-
'on ini bertujuan untuk membangun sebuah sistem qaestion answering sederhana berbasis ontologi sebuah aplikasi semsntic web, Domiln dari sistem ini adalah informasi mengenai film. Bahasa yang digunakan dalam sistem lni adalah bahasa Indonesia.
-gri Srsi Lgrn
semantic web dibangun dengan menggunakan Java Server Pages sebagai antarmuka penggutra sistem, Web Ontology Language sebagai bahasa untuk merepresentasikan basis pengetahuan,
i-l ontologt API sebzgti antarmuka sistem dengan ontologi. Easil penelitian menunjukkan bahwa
AYr
fn
pertanyaan dapat dijawab dengan tepat oleh sistem.
kunci: question answering, semanticweb, ontologt
1-
PENGANTAR Informasi telah menjadi bagian terpenting
lrc'
berbagai aktivitas masyarakat modern. !=irembangan teknologi Intemet dan Web yang F'.lrian pesat mengakibatkan sumber'sumber
Gmasi
menjadi semakin banyak dan beragam' {artran saat ini Web telah menjadi suatu kebutuhan,
3l
itu digunakan untuk melakukan transalsi bisnis,
hrryrmikasi, penyebaran informasi, pcarian informasi.
rnaupun
Kehadiran mesin-mesin pencari (search seperti Google (www.google.com), Yahoo 'r,rv.yahoo.com), Altavista (www.altavista.com)
$;l,es)
rr,
sebagainya, memberikan kemudahan untuk Gcari dan menemukan informasi di Web. Namun
mg
perkembangannya yang sangat pesat, saat ini
dapat dipahami oleh manusia rnmun 664 rlrpat dipahami oieh mesin, 5shingga mesin tid^k rn2rnFu menginterpretasikan informasi apa yarg dibutuhkan atau dicari oleh manusia. Hal ini mengahtatkan
dokumen-dokumen yang tidak relevan Pun disertakan sebagai hasil pencarian (search result). Dan seringkali terjadi bahwa dokumen-dokumen yaug relevan justru tidak terindeks oleh mesin pencari. Sehingga campur tangan manusia untuk
memilah informasi-informasi tersebut
tetap
dibutuhkan.
Unttrk mengatasi kesulitan
tersebut,
dibutuhkan suatu mekanisme yatrg memampukan komputer memahami makna informasi yang dicari.
Dengan kata
lain, dibutuhkan suatu cara agar
informasi dalam suatu dokumen Web dapat dibaca dan dipahami oleh mesrn (machine understandable). Web dengan kemampuan demikian, seolah-olah
milyaran dokumen Web' Peningkatan .cime informasi yang sangat besar ini justru
memiliki kecerdasan yang sanggup memberikan jawaban yang tepat terhadap pertanyaan atau
araambah kesulitan unhrk menemukan, mengelola,
kebutuhan para penggunanya.
=Japat
mgakses dan memelihara informasi
yang
*utuhkan. Penyebab utama timbutnya kesulitan ssebut terutama karena makna informasi yang udapat dalam dokumen web (web content), hanya
2.
TINJAUAN PUSTAKA Sebuah sistem QA, menerima query dalam bentuk pertanyaan dengan bahasa alami, mencari
Seminar dan Call For Paper Munas Apticom Politeknik Telkom Bandung, 9 Oktober 2010
jawaban pada sekumpulan dokumen atau pada
pemodelan data dalam SW dengan menggwakan
sebuah basis pengetahuan, rnengekstraknya dan kemudiau memformulasikan jawaban yang ringkas (Moldovan & Surdeanu, 2003). Umumnya sistem QA terdiri atas tiga modul utama, yakni question
RDF (Resouree Description Frarnework)
processing, document retrieval
dan
answer
pro cessing. Kebanyakan sistem QA mengelorrpokan pertanyaan berdasarkan jenis pertanyaannya (Cooper & Ruger, 2000; Moldovan & Surdeanu, 2003; Petez'
Coutino et al, 2004; Gunawan & Lovina, 2006; Wijono et a|,2006; Augus! 2007; Kangavai et al, 2008). Jika jenis pertanyaan dapat ditentukau maka
jenis jawabannya dapat ditentukan pula. Dimisalkan,
jenis
pertaayaannya adalah
"Siapa...",
maka
jawaban yang diiuginkan adalah orang
atau
organisasi. Jika pertanyaannya "Kapan.'." jawaban yang rliingi:rkau adalah waktu atau tanggal
Web dengan milyaran informasi yang sangat beragam dan tak terstruktur dipandang sebagai sumber informasi yang bernilai. Walaupun saat ini tersedia baayak mesin pencari, uamun mereka tidak mampu memberikan informasi yang
spesifik yang diinginkan pengguna. Pemanfaatan teknologi QA pada web bertujuan untuk mengatasi masalah tersebut. Teknologi QA diharapkan dapat menjadi antarmuka yang iebih intuitif untuk memformulasikan pertanyaan dan memberikan
jawaban dalam bahasa alami
daripada mengembalikan sekumpulan dokumen web yang
terurut berdasarkan ranking (Moldovan & Surdeanq 2003 ; P ercz-Coutino et al, 2004 ; McGuinness, 2004 ; Lopez et a\,2005).
Penelitian-pelitian
yang terkait
dengan
sistem QA pada SW telah banyak dilakukan. KaE et al (2002) menyebutkan bahwa terdapat peluang
sinerjik antara teknologi bahasa alami dan SW, yakni sebuah sistem QA yang mampu memberikan informasi yang relevan daxi sebuah basis pengetahuan berbasis ontologi dalam menauggapi query yarrg berikan oleh pengguna dalam bahasa alami.
Ide ini diwujudkan dengan
mengadopsi
triple-based data model (misalnya RDF) sebagai basis pengetahuan pada sistem QA (Katz et al,20A2; Lopez et al, 20A5; Lopez, et al, 2006; Litkowski, 2003). Hal ini didasarkan pada pertimbangan bahwa
rrepat lsrrn'ngkilan untuk merepresentasikan *':"'\ que4'berbxis bahasa alami ke dalam bentuk :.=l:.
=
1:ag dalam hal ini berbentuk subyek, predikat
cbt:k dari
5,sfrrah kalimat. Sementara
juga
menyatakan sebuah statement dalam benhtk triple resources, properties,daa. value.
Untuk mentansformasikan pertanyaan bahasa alami ke sebuah bentuk query formzl digunakan metoda-metoda yang diadopsi dari
teknoiogi Natural Language Processing (NLP), Inforrnation Retrieval (R) dan Information Extraction (fE). Beberapa metoda yang sering digunakan adalah named-entity recognition dan entity relation recognition Dalam kaitannya dengan representasi pengetahuan dalam sebuah outologi, named-entity dapat dipandang sebagai sebua! instance atau kelas ata:u value dari sebuah properti dan entity relation dapat dipandang sebagai sebuah properti.
Kecenderungan penelitian-penelitan QA yang dilakukan saat ini mengarah pada open domait QA yang berbasis pada sejumlah besar dokurp. pada web. Berbeda dengan kecenderungan tersebur, beberapa penelitian berfokus pada restricted domait
(Lopez et al, 2005; Frank e/ al, 2004; Litkowski, 2003; Gunawan & Lovina, 2006; August, 2007; Cooper & Ruger, 2000; Kangavai et al, 2008')-
Pemilihan restricted domain didasarkan padr beberapa alasan, antara laiu, pertarna, eksploitasi informasi pada dokumen web sering dihadapkaa pada rnasalah reliabilitas informasi tersebut. Dapar saja terjadi bahwa informasi yang diberikan teleh kedaluwarsa atau bahkan sepenuhnya salah. Ke&ta" pemanfaatan pengetahuan formal pada restictd domain dapat meningkatkan keakuratan sistem QA karena baik pertanyaan nuupun jawabannyz
dianalisis berdasarkan basis pengetahuan tersehl Ketiga, sangat dimungkirkan bahwa sebuah instiulsi memiliki dan mengelola basis pengetahuan yan3 sifatnya terbatas dau hanya dipergunakan dalelingkup institusi tersebut. McGuinness (2004) menyebutkan bahre penggunaan teknologi SW dapat meningkatkr kinerja sebuah sistem QA. Hal itu dapat dilahh
dengan cara memanipulasi konten (bai pengetahuan), memanipulasi query atr memanipulasi jawaban. Pada umumnya sistem QA
pada web, mengelstak jawaban dari sekury"ldokumen yang tidak tersbrrktur. Pada restrid domain, penggunaan basis pengetahuan )z!3 terstnrktur sangat dimungkinkan karena ukuran besi pengetahuannya yarrg cenderung lebih kecii
Seminar dan Call For Paper Munas Apticom Politeknik Telkom Bandung, 9 Ohober 2010
dr
z c!,2004) dibandingkan
;e&
dengan basis
open domain. Dengan basis
i:.rg
terstruktur (misalnya ontologi), lebih banyak makna dan -aurunkan domain dan range pada slot
property tertentu dalam ontologi filnr Sedangkan
merupakan nilai dari sebuah datatype
properti.
3.2 Analisisis dan Rancangan proses Sistem
k konsistensi irformasi (McGuinness, Sistem QA yang akan dibangun terdiri atas
n a&pat sejumlah penelitian mengenai irr i:ng menggunakan bahasa Indonesia .t Manurung, 2007; August, 2007; z
:i,20A8).
pengguna. Modul QR bertugas menentukan variabel
bebasa Indonesia digunakau oleh lebih
QueU, statementquery dan melakukan query jawaban ke ontologi serta memberikan jawaban kepada pengguna. Lanrpiran 2 memperlihatkan
bahasa Indonesia sebagai bahasa alami sistem QA patut dipertimbangkan.
!
dan Rancangan Ontologi dengan metoda yang dikembangkan oleh Noy
(2001). Langkah pertama yang
tAalah menenhrkan batasan domain dari
i}-
yang akan dibangun. Sistem eA lang akan dibangun ini termasuk dalam i RDQA dengan domainnya adalah film 169 dimaksudkan dengan informasi rri''rh 4fifout-atribut yang terkait dengan s-rr, misalnya judul filn1 durasi, sutadara, ,irn aktris, dan sebagainya.. Lampiran 1 tkan hasil dari rancangan ontologi fitn.
I
untuk sistem
enam pola kaiimat pertanyaan yaag dapal
oleh sisterlyakni:
ep
Modul ep melakukan dua tugas utama yakni menentukan validitas kaiimat pertanyaan, dan menentukan kata kunci yaug terdapat dalam kaiimat pertanyaan yaug dimasukkan pengguna. Untuk menenfukan validitas pertanyaan, hal pertama yang dilalarkan adalah menghilangkan semua kata_kata
yang termasuk dalam stopwords dari kalimat itu kalimat pertanyaan akan dibagi (Ttarsing) dalam satuan_satuan kata.
pertanyaan. Setelah
Kemudian akan dilakukau pengecekan dari kata pertama. Kata pertama harus berupa kata tanya. Kata tanya yang dapat dikenali oleh sistem adalah kata:
siapa, apakah, bagaimana, kapan, dimana dan
Pola Kalimat Pertanyaan
berapa. Kata berikutnya ditentukan berdasarkan kata tanya yaag telah ditemukan. Lampkan 3 merupakan
flowchort untuk menentukan validitas kalimat perfunyaaa.
i : tr:
Itr: <\rP> -rrir Ir'': <\IP>
}rie \': <\fP>
llir la
Alir Data (DAD) Tingkat
3.3 Analisis dan Rancangan Modul
Crrologi film dibangun Hqisress
Diagram QA
GELT PENELITIAIq
}ie lrir
(QP) dan modul euery Retrieval (eR). Modul ep bertugas menentukan validitas kalimat dan kata kunci berdasarkan pertanyaan yang dimasukkan
Sebagai bahasa kenegaraan
juta orang. Berdasarkan fakta tersebut,
!rr"z
dua modul utama, yakni modul euestion processing
t&]zh kata tanya yang dtrl'nkan, Terdapat ia tanya yang diijinkan yakni: siapa,
tapan, dimana, bagaimana dan berapa. ta.lah kata kunci tertenfu yang mewalali roperty. Kata larnci yang diijinkan pada kata tanya yang diikutinya.
V kzta tanya siapa hanya boleh diikuti oleh "o.t. aktor, aktris, sutradara dan sebagainya, -Jqk boleh diikuti oleh kata k:laci judul, penghargaan dan sebagainya. yang mewakili datatype
Setelah kalimat pertanyaan rtinyatakaa valid, langkah selanjuttya adalah menentukan kata_ kata kunci, termasuk kata kunci tambahan. Kata_kata kuaci tersebut akan digunakan pada modul eR untuk menentukan variabel query dan statement_ statementquery, Lampban 4 merupakan flowchan nnfuk menamba&kan kata kanci yang bersesuaiar3"4 Analisis dan Rancangan Modul
eR
Modul QR melakukan ttga tugas ur-,:n: yakni, menentukan vaiabel query, rffnentukan staternent-statement query dan melah*ao query jawaban. Variabel query berfirngsi unnrk menampung jawaban pertanyaan yang diperoleh dari ontologi untuk kemudian diteruskan ke pengguna.
Seminar dan Call For Paper Munas Apticom
Politeknik Telkom Bandung, 9 Oktober 2010
Vlriabel query drterrfr;&;al berdasarkan kata kunci yag mwakili datatyp e prop erty. Statement-stqtement query ditentukan b€rdasarkan kata-kata kunci yang diperoleh dari mdul QP. Sebuah statement terdiri atas tiga bagian yabi subject, predicate dan object (S, P, O). Setiap
kata kunci mewakiii properti tertentu
dalam
ontologi. Properti mewakili predicate sebuah statement, ssdangkan domain dan range dari properti tersebut mewakili subject daa object sebuah statement. Larrpiran 5 memperlihatkan daftar kata kunci dan s/atement yang bersesuaian.
dari sebuah datatype property (VP). pennasalatrrr tersebut dapat diatasi dengan menambahkan pob pola kalimat yang marnpu dikenali sistem.
Kegagalan meuentukan
pola
kalirra
menyebabkan sistem memberikan jawaban seteh Secara keseluruhan, apabila kalimat tersebrr
dinyatakan valid, modul
QP dan QR rn'r'!rr
meryroses pertanyaan dan jawaban dengan baik
5.
KESIMPT}LAN Penelitian
ini bertujuan untuk membaugn
sebuah sistem
4.
I{ASIL DAN PEMBAIIASAN Ontologi diimplementasikan dalam bahasa OWL DL. Untuk membangun OWL digunakan perangkat hnak Protege-OWL editor. Sistem QA diimplementasikan dengan menggunakan JSP sebagai antarmuka sistem dengan pengguaa, dan
JENA sebagai antarmuka sistem dengan ontologi. Implementasi sistem meliputi implementasi antarmuka pengguna, antarmuka ontologi dan implementasi modul QP dan modul QR.
Perta[yaan-pertanyaan
yang
digrrnakuo pertanyaan-
untuk pengujian sistem adalah pertanyaan faknral yang telah dikumpulkan
sebelumnya melalui email. Evaluasi dilakukan dengan melihat apakah sistem mampu menentukan validitas kalimat secara tepat, dan apakah kalimat yang valid mampu diproses oleh sistem secara tepat. Hasil pengujian menunjukkan bahwa sistem
berhasil menenirkan validitas kalimat pertanyaan
yang dirnasukkan pengguna sebesar
96,70/0.
QA sederhana berbasis ontoki sebagai sebuah aplikasi SW. Hasil penetitir menunju}&an bahwa pemanfaatan sistem eA sederhana berbasis ontologi mampu merrmu pertanyaan-pertanyaan faktual dan tunggal seca siguifikan dengan tingkat keberhasilan menc496,70/0.
Hasil ini menunjulJ
pencarian berbasis web pada domain yang terbatac
6.
DAFTARPUSTAKA
S., 2006, Perancangan dr Penerapan Question Answering S)rsE
[1]. August,
pada Alkitab
Digital
Berbahasa
dengan Meugguuakan Natural
Surabaya.
[2]. Cooper, R.J., dan Ruger, S.M., 2000,
Conference.
[3]. Frant A., Krieger, H., Xu, F.,
pertanyaan tersebut dianggap valid oleh sistem.
Sources. Proceedings
Pada pertanyaan nomor t4: Siapa aktor yang berperan sebagai Jack Dawson dalam film Titanic?, sistem menemukal kata kunci nama dan
Restricted Domains.
tza hnci
tokoh ditemukan dianggap sebagai nilai
l,
Simple Question Answering S),sE Proceedings of the gh Text REd H., Crysmanrq 8., Jorg, B., 2005, Querying Structured
Dendkian pula pada pertanyaan nomor 15: Siapa noma pemeran james bond di fiIm James Bond C.asino Royale?, sistem menemukau kata kunci ,o1na dan pemeran. Jawaban yang diberikan adalah sehrruh nam, Ilemeran James Bond. Hal ini terjadi har€Ba sisa kelimat pertanyaan pada bagian setelah
Indori
Langul; Processing, Slcripsi, Fakultas TeLIndustri, Universitas Kristen pcqt
Kegagalan sistem terjadi saat menentukan validitas kalimat pertanyaan nomor 14 dan 15. Pertanyaan-
aldor. g6hingga pola yang ditemukan adala} 'I(TOP". Pola ini dianggap valid oleh sistem.
perpah
teknologi QA dan teknologi SW dapat m€Bjsebuah pilihan baru dalam membangun apl'' '
Worlahop
on
of
Schafer,
AAAI-05
Question Answering
[4]. Gunawan dan Lovina, G., 2006, Answering System dan Peneralannya Alkitab. Jurnal Informatika. No. 1, Vd hal i-9.
[5]. Kangavari, M.R., Ghandchi, S., Golpour, M., 2008, A New Modd Questi"oa Answeriag Systems.
of World Academy of Science, and Technologt, Vol32. Agustus 2008
8., Lin, J., dan Quaq D., Natural Language Annotations for Semantic Web. Proceedings of
16l. Kav.,
Seminar dan Call For Paper Munas Apticom Politeknik Telkom Bandung, 9 Oktober 2010
*rc,:,a,I Conferences on Ontologt, ih '€ cnd Applications of Semantics
r@&eS
--, 0 2), Oktober 2002.
S.D. drn Manurung, R., 2007,
&rr= : Sernentic Analysis of Bahasa ha for Questiou dnswering. hairer of the l1th Conference of the .tssociation Computational r-t-o- ?ACLING fu 2007), K-C., 2003, Question Answering
)C\IL-Tagged L\IL-Tagged
Documents.
of the I tth TuEC.
'.-- Pasln, M., dan Motta, E., 2005, Aa Ontology-Portable Question for the Semantic V/eb. bqs of the 2nd European Semantic
'bEbace. \s:rz" V., Motta, E.,
dan Uren, PoscrAqua: Fishing the Semantic fueedings o/European Semantic --,q--ence 2006. \!a5endra, R., Larasati, S.D., dan
R, 2008, Extending an Semantic
Analysis-based
.t-:swering System with Based od World Knowledge Axioms. ?acrJic Asia Conferences on
<
-
idormation and Computation
gQrrinness, D. L.,
2004,
-rrs*'ering on the Semantic Web.
d.ge*
Systems.No. 1, Vol 19, hal
VoiJovan, D. dan Surdeanu, M., 7.c R.ole of Information Retrieval
A
*tcion
Extraction in Question Systems, Pazienza, M.T., Extraction in the Web Era.
S'
Springer, Berlin.
!roi'. N.F. dan McGuinness, D.L., a--j:g)'Development 101: A Guide
I-Gg
Your First
Ontology,
stanford.edu/ a Io gt _dev eI op m ent/o nto lo g -'rse5 tanggal 121 1012008. on
}=={outino, M., Solorio, T,, M., Lopez-Lopez, A., =eda, L., 2004, Toward A -llodel for Question Answering
in Web Intelligence. l3-1. Springer, Berlin
-!.:;ences -:
Seminar dan Call For Paper Munas Apticom Politeknik Telkom Bandung, 9 Oktober 2010