1 QUERY BAHASA ALAMI PADA MESIN PENCARI DENGAN MENGGUNAKAN METODE RULE-BASED DAN PENDEKATAN SEMANTIK NATURAL LANGUAGE QUERY ON SEACRH ENGINE USING RUL...
Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
QUERY BAHASA ALAMI PADA MESIN PENCARI DENGAN MENGGUNAKAN METODE RULE-BASED DAN PENDEKATAN SEMANTIK NATURAL LANGUAGE QUERY ON SEACRH ENGINE USING RULEBASED METHOD AND SEMANTIC APPROACH Salamun Rohman Nudin1), Daniel O. Siahaan2) dan Umi Laili Yuhana3) of Informatics, Faculty of Information Technology, Institut Teknologi Sepuluh Nopember (ITS), Kampus ITS Sukolilo, Surabaya, 60111, Indonesia e-mail: [email protected] ), [email protected]), [email protected])
1,2,3)Department
ABSTRAK Penggunaan teknologi informasi berbasis web pada saat ini sangat pesat. Dari penggunaan teknologi informasi berbasis web tersebut menimbulkan permasalahan baru seiring tuntutan dari pengguna. Permasalahan yang dihadapai adalah bagaimana sebuah mesin bisa melakukan pencarian data dalam sistem informasi berbasis web dengan optimal, terutama untuk konten lagu. Pada penelitian sebelumnya telah dilakukan pencarian berbasis konteks untuk konten lagu yang terdapat dalam basis data dengan mengacu pada pola query dari hasil survey. Namun, hasilnya belum optimal karena pilihan yang diberikan oleh sistem sesuai dengan pemahaman sistem. Maka dari itu pada penelitian ini diajukan suatu pengembangan pada metode query bahasa alami untuk menyelesaikan permasalahan tersebut. Metode tersebut memanfaatkan natural language processing untuk melakukan tagging pada query, sehingga dihasilkan suatu tagging berdasarkan gramatikal atributnya sesuai dengan part-of-spech. Hasil tagging tersebut akan di analisis berdasarkan struktur sintak dan struktur semantik. Kemudian hasil analisis tersebut digunakan untuk menentukan pencarian berbasis aturan (rule-based) dan pendekatan semantik. Berdasarkan uji coba dan analisis hasil, pencarian konten lagu berbasis aturan dan pendekatan semantik dapat memperbaiki metode query bahasa alami untuk mesin pencari pada penelitian sebelumnya. Selain itu hasil yang ditampilkan mesin pencari sesuai dengan konteks pencarian yang diinginkan oleh pengguna. Kata kunci: Query Bahasa Alami, WordNet, Rule-based, Semantik Web ABSTRACT The use of web-based information technology is currently very rapid. From the use of web-based information technology has created new problems as the demands of users. The problem faced is how a machine can do a search of data in web-based information systems with the optimal, especially for the content of the song. In previous research has done for context-based search for song content contained in the database with reference to the query pattern of the survey results. However, the results are not optimal because of the choices given by the system in accordance with an understanding of the system.Therefore in this study proposed a development on the natural language query methods to solve these problems. The method utilizes natural language processing to do the tagging on the query, so it generated a tagging based on the grammatical attributes in accordance with part-of-spech. The results of the analysis of tagging will be based on the structure of syntax and semantic structure. Then the results of the analysis used to determine the rule-based search and semantic approaches.Based on testing, the search for song content-based rules and semantic approach ISBN : 978-602-97491-4-4 C-13-1
Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
can improve query methods for natural language search engine in previous studies. Also, results are displayed according to the context of a search engine that searches desired by users. Keywords: Natural Language Query, WordNet, Rule-based, Web Semantik
PENDAHULUAN Penggunaan teknologi informasi berbasis web pada saat ini terus mengalami peningkatan, karena dianggap dapat mempermudah seseorang dalam menjalankan aktifitas pekerjaannya, baik dalam bidang formal maupun informal (Dunia, 2011). Dengan adanya teknologi informasi berbasis web tersebut memungkinkan adanya pemanggilan kembali data yang tersimpan dalam basis data, sedangkan data yang terdapat dalam basis data tersebut sangat banyak. Sehingga diperlukan suatu mesin pencari dalam pemanggilan kembali data yang terdapat dalam basis data tersebut, agar hasil pencarian data dapat optimal. Kondisi saat ini, teknologi mesin pencari masih berbasis kata kunci, seperti Google, AltaVista dan Yahoo. Dimana ketika kita melakukan pencarian, kata kunci dimasukkan dan akan muncul hasil berdasarkan kata kunci tersebut. Hasil yang didapat seringkali tidak sesuai dengan konteks pencarian sehingga dapat menyebabkan kebanjiran informasi, penyia-nyiaan waktu dan pengkonsumsian sumber daya yang berlebihan (Kwon, 2007). Untuk mengatasi masalah tersebut perlu diciptakan mesin pencari berbasis konteks dengan menggunakan teknologi semantik web. Dimana ketika kita melakukan pencarian, bahasa alami yang kita masukkan dan akan muncul hasil sesuai dengan konteks masalah yang dicari (Simanjuntak, 2008). Untuk mendukung penggunaan teknologi semantik web diperlukan suatu metode yang dapat melakukan pemanggilan kembali data yang terdapat dalam basis data. Telah ada penelitian yang menggunakan metode query bahasa alami (QBA) untuk melakukan pencarian berbasis konteks pada konten audio. Bahasa alami adalah bahasa yang digunakan ketika berbicara dan menulis oleh manusia dalam berbagai bentuk (wordnetweb.princeton.edu). Query bahasa alami adalah salah satu bentuk ekspresi menggunakan sintaks percakapan biasa (normal conversational syntax), yaitu frase dari query kita seolah-olah seperti membuat percakapan atau membuat pernyataan tertulis kepada orang lain (uscode.house.gov). Namun, hasil pencarian belum dapat optimal, karena pencarian hanya mengacu pada pola query yang disesuaikan dengan hasil survei, sehingga pilihan yang diberikan oleh sistem sesuai dengan pemahaman sistem dan bukan pemahaman dari pencari (Praja, 2009). Maka diperlukan suatu metode yang dapat digunakan untuk menyelesaikan permasalahan tersebut. Pada penelitian ini penulis mengusulkan suatu metode untuk mesin pencari berbasis konteks dengan menggunakan metode rule-based dan pendekatan semantik yang terdapat pada penelitian sebelumnya (Wang et. al., 2006). Penelitian tersebut memanfaatkan ontologi yang digunakan untuk mendeteksi part-of-speech (POS) dari kata-kata penyusun kalimat sehingga bisa diketahui struktur sintak dari kalimat tersebut sesuai dengan gramatikal atributnya. Setelah mengetahui struktur sintak dari kalimat tersebut maka dilakukan proses transformasi ke struktur semantik untuk mengidentifikasi query berdasarkan arti kata dengan menggunakan rule-based. Pencocokan yang dilakukan menggunakan tagging matching dan string matching. Tagging matching adalah pencocokan berdasarkan penandaan (Vlas et. al., 2011). Kemudian dilakukan pencocokan menggunakan string matching, dimana kata yang tepat pada query akan digunakan sebagai kunci untuk melakukan pencocokan pada basis data (Kwon et. al., 2007).
ISBN : 978-602-97491-4-4 C-13-2
Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
Dengan menggunakan metode tersebut pada mesin pencari berbasis konteks, hasil yang didapat sesuai dengan keinginan pengguna. Sistem dapat memahami pencarian berbasis konteks ini diharapkan dapat mempermudah seseorang dalam melakukan pencarian data dalam bentuk konten lagu dengan lebih akurat. METODE Penelitian ini memanfaatkan query bahasa alami pada mesin pencari menggunakan metode rule-based dan pendekatan semantik, sebagaimana dapat dilihat pada desain sistem (Gambar 1).
Keterangan Aksi Alur Aksi Pendukung
Gambar 1. Desain Sistem Mesin Pencari Berbasis Konteks
Secara garis besar, desain sistem pada gambar 1 terdiri dari tiga bagian, yaitu input, process dan output. Sistem ini mengambil input dalam bentuk bahasa alami yang digunakan dalam kehidupan sehari-hari oleh pengguna yang kemudian akan diproses oleh sistem. Proses yang dilakukan dalam sistem ini terdiri dari dua bagian, yaitu (1) ekstraksi fitur yang digunakan untuk menganalisis input dari pengguna dalam bentuk query yang berupa teks, seperti “I am happy. Please find some music for me” dengan memanfaatkan library dari StanfordNLP, (2) pencocokan dan pemanggilan kembali data yang sama dengan menggunakan rule-based dan pendekatan semantik. Setelah dilakukan proses tersebut maka dihasilkan keluaran sesuai dengan hasil pemanggilan data yang sesuai antara query dan basis data. Hasil yang akan ditampilkan berupa daftar lagu (play list) yang diwakili oleh judul lagu dan dapat dimainkan dengan MP3 player yang ada pada interface. Berdasarkan gambar 1 dapat dijelaskan secara detail fungsi dari masing-masing bagian, sebagai berikut: a. Pengguna adalah seseorang yang melakukan pencarian lagu dalam basis data. Misalnya: ada seseorang yang kondisinya lagi senang, kemudian orang tersebut ingin mendengarkan sebuah lagu yang sesuai dengan kondisinya saat ini. Karena koleksi lagu yang terdapat di basis data sangat banyak, sehingga orang tersebut kesulitan dalam mencari lagu yang diinginkan. Maka untuk memudahkan pencarian lagu yang diinginkan, orang tersebut memanfaatkan mesin pencari lagu dengan memasukkan ISBN : 978-602-97491-4-4 C-13-3
Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
b. c. d.
e.
f.
g.
h.
query dalam bentuk teks sebagai berikut: “I am happy. Please find some music for me.”. Koleksi lagu adalah kumpulan lagu yang terdapat dalam basis data dengan format mp3. Interface adalah bagian yang menerima masukan dan menampilkan hasil pencarian. Web adalah bagian yang mengelola permintaan (request) dari pengguna, kemudian memberikannya kepada sistem untuk diproses, selanjutnya mengirimkan kembali ke pengguna hasil pemrosesan request tersebut dalam bentuk response. Stanford NLP adalah library yang digunakan untuk menganalisis bahasa alami dalam bentuk struktur sintaks sesuai dengan Part-of-Speech yang terdapat pada Penn Treebank. Wordnet dalam penelitian ini digunakan untuk mencari kemiripan arti kata berdasarkan atribut emosi yang terdapat pada konten lagu. Misalkan seseorang ingin mencari lagu berdasarkan keadaan emosinya pada saat ini, yaitu “I am euphoric”. Dari query bahasa alami tersebut akan dilakukan pemrosesan dengan menggunakan metode rule-based dan pendekatan semantik. Kemudian sistem mendapatkan hasil sebuah konteks yang akan dicari, yaitu “euphoric”. Namun, dalam klasifikasi musik berdasarkan emosi tidak terdapat “euphoric”, sehingga diperlukan sebuah kamus untuk mencari arti kata yang mempunyai kemiripan dengan “euphoric”. Hasil dari pencarian kemiripan arti kata dari “euphoric” yang terdapat dalam klasifikasi musik berdasarkan emosi adalah “happy”. Ekstraksi fitur adalah pre-processing yang dilakukan dengan menggunakan library Stanford NLP. Terdapat dua proses yang dilakukan dalam ekstraksi fitur, yaitu: sentence breaking dan word tagging. 1) Sentence breaking adalah proses pemecahan kalimat berdasarkan ekstraksi fitur terhadap kalimat yang tidak sesuai dengan aturan penulisan. Misalkan terdapat query sebagai berikut : “I am happy. Please find some music for me.”. Maka terdapat dua kalimat yang dihasilkan dari proses sentence breaking terhadap query tersebut, yaitu: Kalimat pertama : I/PRP am/VBP happy/JJ ./. Kalimat kedua : Please/VB find/VB some/DT music/NN for/IN me/PRP ./. 2) Word tagging adalah penandaan kata dalam kalimat untuk menentukan gramatikal atributnya. Misalkan terdapat query sebagai berikut: “I am happy. Please find some music for me.”. Hasil dari penandaan kata dalam kalimat tersebut berdasarkan POS adalah sebagai berikut: POS = I/PRP,POS2 = am/VBP, POS3 = happy/JJ, POS4 = ./., POS5 = Please/VB, POS6 = find/VB, POS7 = some/DT, POS8 = music/NN, POS9 = for/IN, POS10 = me/PRP, POS11 = ./. Rule-based adalah sebuah metode berbasis aturan yang digunakan untuk melakukan transformasi dari sturktur sintak ke struktur semantik berdasarkan POS. Sehingga QBA yang dimasukkan dapat diketahui berdasarkan arti katanya dan dapat diketahui konteks masalah yang dicari. Rule-based pada penelitian ini dibangun berdasarkan hasil survei yang telah dilakukan sebelumnya dan dapat ditambah sesuai dengan kebutuhan. Dalam membangun aturan (rule-based) terdapat empat langkah yang harus dilakukan, antara lain: 1) Mendefinisikan kumpulan kata
ISBN : 978-602-97491-4-4 C-13-4
Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
Tujuan dari mendefinisikan kumpulan kata adalah menentukan daftar kata-kata dalam kategori noun, verb, adverb, adjective, pre-position, interrogative dan conjunction sesuai dengan Part-of-Speech yang terdapat pada Penn Treebank. 2) Mendefinisikan struktur sintak Tujuan dari mendefinisikan struktur sintak adalah menentukan beberapa struktur sintak yang akan digunakan dalam membangun rule-based. Misalkan didapat query hasil survei, yaitu “I am happy. I am happy. Please find some music for me” kemudian ditransformasikan ke struktur sintak “I/PRP am/VBP happy/JJ ./. Please/VB find/VB some/DT music/NN for/IN me/PRP”
3) Mendefinisikan struktur semantik Tujuan dari mendefinisikan struktur semantik adalah mengidentifikasi query berdasarkan arti kata yang dianggab sebagai term. Term tersebut akan digunakan sebagai acuan dalam pencarian konten lagu pada basis data berdasarkan pemodelan metadata. Hasil analisis semantik dari query diatas, yaitu “I/PRP am/VBP happy/JJ[Term] ./. Please/VB find/VB some/DT music/NN for/IN me/PRP”.
4) Mendefinisikan aturan Tujuan dari mendifinisikan aturan adalah melakukan transformasi dari struktur sintak ke struktur semantik berdasarkan query hasil survei. Sehingga diketahui struktur aturan yang akan dibangun pada penelitian ini. Aturan yang akan dibangun pada penelitian ini, yaitu penandaan berbasis aturan (rule-based tagging). Dalam membangun rule-based terdapat beberapa pola yang digunakan untuk mendifinisikan setiap atribut, yaitu: Artist dilambangkan dengan huruf A, Album dilambangkan dengan huruf B, Composer dilambangkan dengan huruf C, Year dilambangkan dengan huruf Y, Genre dilambangkan dengan huruf G, Emotion dilambangkan dengan huruf E, Tempo dilambangkan dengan huruf M. Rule-based disimpan dalam format file XML. Misalkan terdapat query “I am happy. Please find some music for me.”. Maka query tersebut jika dimasukkan ke sistem akan disimpan dalam format file XML yang dapat dilihat pada gambar 2.