Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
METODE SEMANTIK UNTUK IMPLICIT NATURAL QUERY BERBASIS BAHASA INDONESIA PADA USER DRIVENINTERNET SEARCH ENGINE Agus W.E. Prasetya1), Junaidillah Fadlil2), Surya Sumpeno3), Moch. Hariadi4) Pascasarjana Jurusan Teknik Elektro Bidang Study Jaringan Cerdas Multimedia1)2) Jurusan Teknik Elektro3)4) Fakultas Teknologi Industri Institut Teknologi Sepuluh Nopember Surabaya Email: {awe_prast1) nedijf2) surya3)}@elect-eng.its.ac.id,
[email protected])
ABSTRAK Pengguna internet search engine semakin hari semakin banyak sejalan dengan semakin beragamnya konten di internet. Dengan internet search engine, pengguna internet akan mudah mencari konten internet sesuai dengan klasifikasi yang diinginkan hanya dengan memasukkan kata kunci yang berkaitan dengan klasifikasi konten tersebut. Didalam pemilihan kata kunci, pengguna awan lebih sering memasukkan tujuan pencarian ke dalam kata kunci. Hal ini berbeda dengan pengguna mahir yang memilih kombinasi kata kunci menggunakan reasoning berdasarkan commonsense knowledge. Sebagai hasilnya, pengguna mahir lebih cepat menemukan konten yang dibutuhkan. Metode semantik diperkenalkan sebagai pemecahan atas masalah efektifitas penggunaan internet search engine bagi pengguna awam. Dengan penggunaan commonsense knowledge-base pada proses pencarian link website dalam klasifikasi tertentu, diharapkan hasil pencarian antara pengguna awam mendekati kemampuan pengguna mahir. Kata Kunci: metode semantik, commonsense knowledge, internet search engine.
PENDAHULUAN Penggunaan internet search engine sebagai sarana untuk mencari suatu konten di internet yang semakin beragam semakin lama semakin meningkat. Hasil survey 2008 menunjukkan bahwa penggunaan internet untuk mencari informasi umum menempati urutan kedua setelah email dan meningkat sebanyak 69% dibandingkan hasil survey pada 2002 [1]. Peningkatan penggunaan internet search engine juga diikuti semakin beragamnya penggunanya. Hasil penelitian sebelumnya menunjukkan perbedaan tata cara pemilihan kata kunci yang dimasukkan kedalam internet search engine antara pengguna awam dengan pengguna mahir [2]. Pengguna mahir mampu memilih kata kunci yang tepat dan mengkombinasikannya dengan baik. Pemilihan kata kunci yang tepat ini berdasarkan reasoning dengan commonsense knowledge (fakta-fakta umum). Sebaliknya, pengguna awam cenderung memaukkan tujuan pencarian sebagai kata kunci sebagaimana mereka biasanya berkomunikasi. Disisi lain, pemrosesan bahasa alami (natural language processing) dikembangkan sebagai upaya untuk memudahkan pengguna komputer dalam berinteraksi dengan komputer. Melalui teknologi pemrosesan bahasa alami, pengguna komputer berkomunikasi dengan komputer dengan menggunakan bahasa sehari-hari manusia, bukan lagi menggunakan bahasa formal komputer.
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Salah satu penerapan pemrosesan bahasa alami adalah ConceptNet, yaitu sebuah knowledge-base dalam jaringan semantik yang berisi fakta-fakta umum (commonsense knowledge) dan dihubungkan dengan relasi-relasi tertentu [4].
Gambar 1. Jaringan semantik dalam ConceptNet
Kalimat implisit adalah kalimat yang artinya bukan pada hal yang dituju. Dengan menggunakan jaringan sematik, maka diharapkan komputer bisa menebak maksud dari kalimat implisit yang diinputkan. METODE Didalam percobaan ini, akan dibangun sebuah sistem yang berfungsi sebagai internet search engine dengan input berupa query dalam bahasa alami yang implisit. Tahap pertama didalam penanganan query tersebut adalah proses tokenisasi. Proses tokenisasi adalah pemecahan sebuah kalimat menjadi kata. Didalam proses tokenisasi, dikenal istilah stopword. Stopword adalah daftar kata-kata yang tidak dipakai didalam pemrosesan bahasa alami. Hasil penelitian sebelumnya menyatakan bahwa penggunaan stopword meningkatkan kemampuan pemrosesan bahasa alami [5]. Kata-kata hasil tokenisasi yang termasuk dalam stopword selanjutnya dihilangkan. Kumpulan kata-kata ini sangat dimungkinkan bahwa sebagian adalah istilah dari gabungan 2 kata atau lebih. Dengan menggunakan handcrafted dictionary, kata-kata yang ada dicari kemungkinannya menjadi istilah tersebut. Setelah proses tokenisasi dilakukan, proses selanjutnya adalah stemming. Stemming adalah proses pencarian bentuk dasar suatu kalimat dengan cara menghilangkan imbuhannya. Semua kata/frase hasil proses sebelumnya kemudian dibobotkan untuk menentukan kata/frase mana yang paling penting. Pembobotan menggunakan metode tfidf (term frequency–inverse document frequency) dengan membandingkan kata/kata dalam bags of word (kumpulan text document). Dalam metode tf-idf, suatu kata/frase dianggap semakin penting apabila jumlahnya dalam suatu dokumen semakin banyak, namun berbanding terbaik dengan jumlah dokumen yang mengandung kata/frase tersebut.
ISBN : 978-979-99735-7-3 C-18-2
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Term frequency dirumuskan dengan :
if i , j
ni , j
n
k, j
k
dimana ni,j adalah jumlah kata/frase i dalam dokumen dj dan denominatornya adalah jumlah semua kata/frase dalam dokumen dj. Inverse document frequency dirumuskan dengan : |D| idf i log | {d j : t i d j } | dimana |D| adalah jumlah total dokumen dan |{dj:ti€dj}| adalah jumlah dokumen yang mengandung kata/frase i. Maka bobot kata/frase i adalah : tfidf i tf i , j .idf i
Tiga dari kata/frase bobot teratas diterjemahkan dalam Bahasa Inggris. Hal ini dikarenakan ConceptNet tidak tersedia dalam Bahasa Indonesia. Kemudia tiga kata/frase tersebut dimasukkan kedalam ConceptNet. Output dari ConceptNet diambil untuk relasi RelatedTo, UsedFor, IsA, MotivationOf, dan SubeventOf. Hasil output ini kemudian ditanyakan kepada user sebagai bentuk User-Driven. Adapun skema lengkap dari proses yang dibangun dapat dilihat dari Gambar 2. Kemudian, output dari sistem dibandingkan dengan hasil pencarian tiga internet search engine terbaik yang ada saat ini. Pembandingan ini menggunakan 5 macam query yang sudah disiapkan sebelumnya. 5 macam query tersebut dapat dilihat pada Tabel 1. User
Natural Implicit Query
Tokenisasi dan Pengubahan Istilah
Stemming
Weighting
Analisa Semantik User Setuju
Menawarkan Opsi Kpd User
Web Crawling
Informasi Link Website yang Berkaitan
Gambar 2. Diagram Sistem
ISBN : 978-979-99735-7-3 C-18-3
Semantic Network
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009 Tabel 1. Parameter Pengujian Sistem No 1
2
3 4
5
Query Sore-sore seperti ini sebaiknya melakukan apa?
Tujuan Pencarian User ingin mendapatkan seputar aktivitas fisik yang bisa dikerjakan pada sore hari, semisal jogging, bersepeda, belanja ke mall. User ingin mendapatkan informasi hal-hal yang menghibur, seperti nonton film atau mendengarkan musik. User ingin mendapatkan tips seputar berpacaran dengan seorang wanita. User ingin mendapatkan informasi seputar tempat wisata murah di Amerika.
Apa yang bisa engkau sarankan untuk mengurangi kelelahanku setelah bekerja seharian? Saya benar-benar sedang mabuk cinta! Dimanakah obyek wisata di Paman Sam yang bisa dikunjungi dengan anggaran minimal? Bagaimana membuat datang bulan tidak sakit?
User ingin mendapatkan informasi agar tidak merasa sakit saat menstruasi.
HASIL DAN DISKUSI Sebelum menguji sistem, terlebih dahulu parameter uji diujikan pada tiga internet search engine paling populer di tahun 2008, yaitu Google, Yahoo, dan MSN. Masing-masing query diinputkan pada ketiga internet search engine tersebut. Hasil 50 top search pada masing-masing internet search engine dibandingkan dengan tujuan pencarian. Hasilnya seperti terlihat pada Tabel 2. Tabel 2. Hasil pengujian 3 internet search engine terhadap parameter uji No 1 2 3 4 5
Query Sore-sore seperti ini sebaiknya melakukan apa? Apa yang bisa engkau sarankan untuk mengurangi kelelahanku setelah bekerja seharian? Saya benar-benar sedang mabuk cinta! Dimanakah obyek wisata di Paman Sam yang bisa dikunjungi dengan anggaran minimal? Bagaimana membuat datang bulan tidak sakit?
Google 16 hit 0 hit
Yahoo 4 hit 0 hit
MSN 0 hit 0 hit
7 hit 2 hit
0 hit 0 hit
6 hit 0 hit
4 hit
0 hit
0 hit
Dari hasil pengujian pada 3 internet search engine terpopuler menunjukkan bahwa query implisit yang menggunakan bahasa alami tidak memberikan hasil pencarian yang memuaskan pada internet search engine yang ada saat ini. Masing-masing query kemudian dijadikan input pada metode semantik pada penelitian ini. Prosesnya dapat dilihat pada Tabel 3. Dari hasil yang didapat pada Tabel 3, terlihat bahwa kata kunci yang dihasilkan pada 3 query teratas sudah mengarah pada tujuan pencarian. Namun pada 2 query berikutnya, terlihat hasilnya menjadi bias. Biasnya kata kunci yang dihasilkan pada 2 query terbawah dikarenakan metode pembobotan tidak berhasil memposisikan kata penting pada 3 bobot teratas. Tabel 3. Proses pengolahan query pada metode semantik No
1
Query
Sore-sore seperti ini sebaiknya melakukan apa?
Hasil Tokenisasi dan Stemming sore, sore seperti, seperti ini, ini baik, baik, baik melakukan, melakukan, melakukan apa
3 Bobot Teratas
sore = 0.002833 baik = 0.001846 melakukan = 0.001753
ISBN : 978-979-99735-7-3 C-18-4
Output Kata Kunci Dari ConceptNet Bermain basket. Lompat Tali. Bermain sepakbola. Bermain game. Berenang. Komputer programming.
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009 No
Query
2
Apa yang bisa engkau sarankan untuk mengurangi kelelahanku setelah bekerja seharian?
3
Saya benar-benar sedang mabuk cinta!
4
Dimanakah obyek wisata di Paman Sam yang bisa dikunjungi dengan anggaran minimal?
5
Bagaimana membuat datang bulan tidak sakit?
Hasil Tokenisasi dan Stemming apa yang, yang bisa, bisa engkau, engkau, engkau saran, saran, saran untuk, untuk kurang, lelah, lelah setelah, setelah kerja, kerja, kerja hari, hari saya benar, benar, benar sedang, sedang mabuk, mabuk, mabuk cinta, cinta obyek, obyek wisata, wisata, wisata di, di paman, amerika, sam, sam bisa, bisa, bisa kunjung, kunjung, kunjung anggaran, anggaran minimal, minimal bagaimana buat, buat, buat datang, datang, menstruasi, bulan, bulan tidak, tidak sakit, sakit
3 Bobot Teratas
Output Kata Kunci Dari ConceptNet
hari kerja saran
= 0.001967 = 0.001735 = 0.001222
Istirahat. Relaksasi.
cinta benar mabuk
= 0.003341 = 0.001541 = 0.000372
Perasaan. Ekspresi. Seks. Mencium. Kado.
bisa = 0.001880 amerika = 0.001058 kunjung = 0.000773
Sepakbola. President. Mengkonsumsi lebih banyak sumberdaya daripada negara lain. Berperang untuk minyak.
datang bulan buat
Bumi. Matahari. Sapi. Monumen. Neil Amstrong. Pesawat Luar Angkasa. Sinar matahari.
= 0.001777 = 0.001713 = 0.001288
KESIMPULAN Dari penelitian yang sudah dilakukan dapat disimpulkan bahwa: 1. Metode semantik dapat menyelesaikan beberapa implisit natural query pada internet search engine, namun tidak seluruh query. 2. Masalah yang timbul pada kegagalan metode semantik dalam menyelesaikan beberapa query dikarenakan metode tf-idf tidak sepenuhnya berhasil membobotkan kata penting dalam query dengan bobot maksimal. DAFTAR PUSTAKA Deborah Fallows, “Survey of Search Engine Use”, Pew Internet & American Life Project, Agustus 2008.
ISBN : 978-979-99735-7-3 C-18-5
Prosiding Seminar Nasional Manajemen Teknologi IX Program Studi MMT-ITS, Surabaya 14 Pebruari 2009
Hugo Liu, Henry Lieberman, Ted Selker, “GOOSE: A Goal-Oriented Search Engine With Commonsense”, MIT Media Laboratory, 2002. Daniel Jurafsky, James H. Martin, “Speech and Language Processing”, Prentice Hall, 1999. Hugo Liu, Push Singh, “ConceptNet: A Practical Commonsense Reasoning Toolkit”, BT Technology Journal, 2004. Fadillah Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”, Institute for Logic, Language and Computation, Universiteit van Amsterdam, Netherlands, 2002. Jelita Asian, Hugh E. Williams, S.M.M. Tahaghoghi, “Stemming Indonesian”, School of Computer Science and Information Technology, Australia, 2007. I Putu Adhi Kerta Mahendra, Agus Zainal Arifin, Henning Titi Ciptaningtyas, “Enhanced Confix Stripping Stemmer dan Algoritma Semut dalam Klasifikasi Dokumen Berita Berbahasa Indonesia”, Sesindo 2008. Pierre P. Senellart, Vincent D. Blondel, “Survey of Text Mining: Clustering, Classification, and Retrieval”, Springer-Verlag New York, Inc., 2004
ISBN : 978-979-99735-7-3 C-18-6