Perangkingan Dokumen Berbahasa Arab Berdasarkan Susunan Posisi Kata dari Query 1
Indra Lukmana – 2Agus Zainal Arifin – 3Diana Purwitasari
Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Email :
[email protected],
[email protected],
[email protected]
Abstrak Pencarian data sederhana untuk mendapatkan informasi berdasarkan kata dan memasangkannya dengan dokumen sudah jamak di temukan pada sistem komputer saat ini, Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Makalah ini bertujuan untuk mengaplikasikan metode perangkingan dokumen berdasarkan susunan posisi kata dari query untuk dokumen berbahasa Arab. Dengan mendasarkan perangkingan pada susunan kata dari query, hasil perangkingan akan lebih sesuai dengan konteks yang ada pada query dibandingkan dengan berdasarkan kata per kata saja. Berdasarkan uji coba perangkingan berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab. Dengan rata-rata F-Measure sebesar 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Evaluasi hasil perangkingan ini meningkat dibandingkan dengan perangkingan kata per kata.
1 Pendahuluan Kebutuhan untuk menemukan informasi tertentu dari data-data yang banya secara cepat tidak terbatas pada i nternet, komputer desktop pun saat ini dapat menyimpan data dalam jumlah yang sangat besar hingga multi-tera- byte. Membuka file satu persatu untuk mencari informasi jelas bukan merupakan tindakan yang efektif. Pencarian d ata sederhana untuk mendapatkan informasi b erdasarkan kata dan memasangkannya dengan dokumen dalam suatu dokumen sudah umum di temukan pada sistem komputer saat ini, proses ini biss memberikan hasil pencarian dokumen yang ditemukan pada sistem baik hasil yang relevan maupun tidak. Namun pemrosesan ini memiliki banyak kelemahan seperti waktu proses yang lama, redundansi hasil, tidak sesuainya hasil dengan keinginan pengguna [1]. Karena permasalahan-permasalahan tersebut diperlukan suatu metode untuk pencarian informasi yang efektif. Metode-metode untuk menangani masalah-masalah tersebut dibahas
dalam information retrieval (temu kembali informasi) [1][2]. Hingga saat ini pembahasan tentang temu kembali informasi paling banyak dalam bahasa Inggris, baru dewasa ini pembahasan selain dalam bahasa Inggris mulai semakin bertambah banyak. Termasuk juga bahasa Arab meskipun masih jauh dari bahasa Inggris yang telah mendominasi temu kembali informasi selama lebih dari 50 t ahun[2][4]. Salah satu alasan kurangnya pembahasan temu kembali dalam bahasa Arab adalah perbedaan struktur bahasanya dengan bahasa latin seperti bahasa Inggris[2][5]. Salah satu pembahasan temu kembali informasi yang biasa di teliti adalah tentaang perangkingan dokumen. Perangkingan dokumen ini dilakukan untuk menyediakan informasi dokumen yang sesuai dengan data yang diinginkan pengguna dari query pengguna[6][1]. Beberapa penelitian yang membahas perangkingan dokumen berbahasa Arab telah dilakukan sebelumnya, seperti: perangkingan
dengan menggunakan pencocokan N-gram terhadap kata dari query dan dokumen[7][8], menggunakan modul crawler dokumen dengan feedback bentuk kata yang tepat[6], berdasarkan variasi orthographic [9]. Permasalahan pada penelitian-penelitian ini adalah perangkingan dokumen dilakukan dengan melakukan perbandingan pada kata per kata (term by term). Perbandingan dokumen dengan menggunakan kata per kata memiliki beberapa kelemahan. Salah satunya dengan hanya menggunakan kata saja, konteks yang dicari kurang lengkap dibandingkan dengan query yang diberikan. Salah satu solusi masalah ini adalah dengan melakukan perbandingan dengan mendasarkan posisi kata dari query. Dengan melakukan perbandingan tersebut maka rangking dokumen yang dilakukan akan lebih sesuai dengan konteks query [10]. Pembahasan perangkingan dokumen dengan mendasarkan posisi kata dari query telah dilakukan sebelumnya pada bahasa Cina [11][10]. Penelitian-penelitian tersebut menunjukkan peningkatan hasil dengan melakukan perangkingan dengan mendasarkan posisi kata dari query dibandingkan dengan hanya mengunakan kata per kata. Hal ini dikarenakan dengan mendasarkan perangkingan pada posisi kata dari query, hasil yang dikembalikan lebih berkaitan dengan konteks dari query yang gunakan. Oleh karena itu makalah ini dibuat untuk mengatasi masalah perangkingan kata per kata dengan menggunakan metode yang menggunakan posisi kata dari query sebagai kunci perangkingan dokumen berbahasa Arab.
2 Perangkingan Dokumen Perangkingan dokumen menggunakan representasi vector space model dari kumpulan dataset. Dokumen dalam vector space model di representasikan dalam matriks yang berisi bobot kata pada dokumen. Bobot tersebut menyatakan
kepentingan/kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen. Biasanya kata yang berbeda memiliki frekuensi yang berbeda. Dibawah ini terdapat beberapa metode pembobotan : 1. Term Frequency (TF) Term frequency merupakan metode yang paling sederhana dalam membobotkan kata. Setiap kata diasumsikan memiliki kepentingan yang proporsional terhadap jumlah kemunculan kata pada dokumen. Bobot dari kata t pada dokumen d yaitu : 𝑇𝐹(𝑑, 𝑡) = 𝑓(𝑑, 𝑡, )
( 2.1)
dimana f(d,t) adalah frekuensi kemunculan term t pada dokumen d. 2. Inverse Document Frequency (IDF) Bila term frequency memperhatiakan kemunculan term di dalam dokumen, maka IDF memperhatikan kemunculan term pada kumpulan dokumen. Latar belakang pembobotan ini adalah term yang jarang muncul pada kumpulan dokumen sangat bernilai. Kepentingan tiap term diasumsikan memilki proporsi yang berkebalikan dengan jumlah dokumen yang mengandung term. Faktor IDF dari term t yaitu : 𝑰𝑫𝑭(𝒕) = 𝒍𝒐𝒈(𝑵⁄𝒅𝒇(𝒕)),
( 2.2)
dimana N adalah jumlah seluruh dokumen, df(t) jumlah dokumen yang mengandung term t. 3. TFIDF Perkalian antara term frequency dan IDF dapat menghasilkan performansi
TFIDFt 3 2+...+TFIDFt k 2)1/2, dimana TFIDFt k adalah bobot kata ke-t k pada vektor dokumen di.
yang lebih baik. Kombinasi bobot dari term t pada dokumen d yaitu : ( 2.3)
𝑻𝑭𝑰𝑫𝑭(𝒅, 𝒕) = 𝑻𝑭(𝒅, 𝒕) × 𝑰𝑫𝑭(𝒕),
Term yang sering muncul pada dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TFIDF akan meningkat dengan jumlah kemunculan term pada dokumen dan berkurang dengan jumlah term yang muncul pada dokumen [3].
3 Perangkingan Berdasarkan Posisi Kata dari Query Perhitungan perangkingan dokumen menggunakan cosine similarity yang dibahas sebelumnya menggunakan kata per kata query (term by term). Hal ini memiliki beberapa kelemahan, misal dengan query ""ﻛﺘﺎﺏ ﺍﻟﻔﻘﻪ maka saat perhitungan menggunakan kata per kata dokumen yang mengandung kata ""ﻛﺘﺎﺏ dalam jumlah yang tinggi bisa mendapat nilai similairity tinggi, padahal belum tentu berhubungan dengan query "[ "ﻛﺘﺎﺏ ﺍﻟﻔﻘﻪ10]. Oleh karena itu maka cosine similarity ini di kembangkan agar dapat menitikberatkan pada dokumen yang lebih berelasi dengan susunan kata dari query.
Dari pembobotan tersebut di peroleh bobot kata pada dokumen. Bobot tiap kata ini merupakan representasi vektor kata pada dokumen. Dari representasi bobot tersebut dapat dihitung nilai kemiripan suatu dokumen dengan query. Nilai kemiripan ini biasa dihitung dengan rumusan cosine similarity, perhitungan tingkat kemiripan ini dibuat dengan berdasar pada besar sudut kosinus antara dua vektor, dalam hal ini adalah vektor dokumen.
Perangkingan dokumen dengan menggunakan kata dari query memerlukan tahapan berikut: 1) Melakukan perhitungan cosine similarity kata per kata 2) Menentukan kata dari query pada dokumen dan menghitung bobot. 3) Menghitung nilai rangking baru yang menitik beratkan pada penggunaan kata dari query.
Karena berdasarkan kosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antara query dan dokumen benar-benar identik. Cosine dinyatakan sebagai berikut [17]:
cos(q, d j ) =
∑ [TFIDF (t , q)]• [TFIDF (t , d )], ∑ TFIDFq • ∑ TFIDFd tk
k
k
3.1
j
2
2
( 2.4)
j
dimana cos(q,d j ) merupakan nilai kosinus antara query dan dokumen j, sedangkan TFIDF(t k ,q) dan TFIDF(t k ,d j ) adalah pembobotan TFIDF kata t k pada query dan dokumen j. |TFIDFq| dan |TFIDFd j | adalah panjang dari vektor query q dan dokumen. Sebagai contoh ||d i ||2 = (TFIDFt 1 2+ TFIDFt 2 2+
3.2
Penentuan kata dari query pada dokumen Kata dari query di identifikasi dengan mencatat posisi kemunculan query pada dokumen. Posisi ini digunakan sebagai dasar susunan query untuk pembobotan. 9B
Perhitungan bobot kata dari query Perhitugan bobot kata dari query dilakukan dengan menggunakan persamaan sebagai berikut: 10B
𝑊𝑝
(∑𝐾 𝑑𝑓(𝑡, 𝑑𝑖) × 𝑓(𝑖))⁄𝐾 = � 𝑖=1 × �|𝑡|, 𝑑𝑓(𝑡, 𝐶)⁄𝑅
1 𝑡 ∉ 𝑑𝑖 𝑑𝑓(𝑡, 𝑑𝑖) = � , 0 𝑡 ∈ 𝑑𝑖 dimana K adalah jumlah dokumen hasil pencarian kata per kata, df(t,di) jumlah dokumen yang terdapat kata dari query t pada dokumen ke-i, f(i) jumlah kemunjulan kata dari query pada dokumen ke-i, df(t,C) jumlah dokumen yang mengandung kata dari query pada corpus dataset, R jumlah dataset.
3.3
Perhitungan perangkingan berdasarkan posisi kata dari Setelah di tentukan bobot kata dari query maka nilai yang di dapat dari cosine similarity kata per kata di modifikasi dengan nilai bobot pada persamaan 2.5. Nilai bobot ini di aplikasikan pada dokumen yang mengandung kata dari query yang didapat dari query.
4 Contoh Perangkingan Dokumen Pada Bahasa Arab Dari beberapa teori perhitungan temu kembali informasi pada subbab sebelumnya pada Tabel 2.2 diberikan contoh perhitungan temu kembali informasi. Yang meliputi frekuensi term, pembobotan menggunakan rumus TFIDF dan perhitungan jarak menggunakan Cosine Similairty. Misalkan diberikan beberapa dokumen bahasa Arab yang terdiri dari dokumen 1 dampai dokumen 4 dan dicari suatu query . Tabel 4.1 Representasi Dokumen Contoh Perhitungan Dokumen d1 d2
Isi Dokumen ﻛﻴﻔﻴﺔ ﺻﻼﺓ ﺍﻟﺘﻬﺠﺪ ﺭﺳﺎﻟﺔ ﻓﻲ ﺍﺭﻛﺎﻥ ﺍﻟﻮﺿﻮء ﻭﺍﻟﺼﻼﺓ
d3
ﺍﻟﻨﻴﺔ ﻫﻰ ﺍﻷﻭﻝ ِﻣ ْﻦ ﺃﺭﻛﺎﻥ ﺍﻟﺼﻼﺓ
d4 query
ﻣﺴﺢ ﺍﻟﺮﺃﺱ ﺭﻛﻦ ﻣﻦ ﺃﺭﻛﺎﻥ ﺍﻟﻮﺿﻮء ﺃﺭﻛﺎﻥ ﺍﻟﺼﻼﺓ
Dari dokumen-dokumen yang terdapat pada ( Tabel 4.1 setelah di lakukan filtering dan 3.1) stemming diperoleh term-term dan frekuensi kemunculannya TF sebagaimana persamaan 2.1 dalam Tabel 4.2. Dengan kolom kata dasar menunjukkan term yang telah diproses, dan kolom Frekuensi menunjukkan jumlah kemunculan term pada dokumen. Tabel 4.2 Contoh Perhitungan Frekuensi Term
Kata dasar
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
ﻛﻴﻔﻴﺔ ﺻﻼﺓ ﺗﻬﺠﺪ ﺭﺳﺎﻟﺔ ﺭﻛﻦ ﻭﺿﻮء ﻧﻴﺔ ﺃﻭﻝ ﻣﺴﺢ ﺭﺃﺱ
Frekuensi (TF) d1 d2 d3 d4 1 0 0 0 1 1 1 0 1 2 0 0 0 1 0 0 0 1 1 2 0 1 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1
Tabel 4.3 Contoh Perhitungan IDF Term
df(t)
IDF
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
1 3 1 1 3 2 1 1 1 1
0,60 0,12 0,60 0,60 0,12 0,30 0,60 0,60 0,60 0,60
Dari Tabel 4.2 lalu dihitung inverse document frequency (IDF) sebagaimana dalam persamaan 2.2, dengan hasil perhitungan pada Tabel 4.3. Dengan kolom df(t) menunjukan jumlah kemunculan term pada dataset, dan IDF
menunjukan hasil perhitungan persamaan 2.2 dengan jumlah dataset 4. Dari TF yang didapat pada Tabel 4.2 dan IDF pada Tabel 4.3 berdasarkan persamaan 2.3 diperoleh bobot term pada Tabel 4.4. Tabel 4.4 Contoh Perhitungan TFIDF Term t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
TFIDF d1 d2 d3 d4 0,60 0,00 0,00 0,00 0,12 0,12 0,12 0,00 0,60 1,20 0,00 0,00 0,00 0,60 0,00 0,00 0,00 0,12 0,12 0,25 0,00 0,30 0,00 0,30 0,00 0,00 0,60 0,00 0,00 0,00 0,60 0,00 0,00 0,00 0,00 0,60 0,00 0,00 0,00 0,60 Dari hasil perhitungan bobot pada Tabel 4.4 maka selanjutnya dapat dicari jarak kemiripan antara query terhadap dokumen d1, d2, d3, dan d4 menggunakan cosine similarity sebagaimana ditunjukkan pada persamaan 2.4. Untuk menentukan nilai cosine similarity tersebut diperlukan dua langkah. Yang pertama menghitung perkalian vektor antara query dan dokumen, dan yang kedua menghitung dotproduct dari query dan dokumen. Berdasarkan persamaan 2.4 diperoleh hasil perkalian vektor sebagaimana diperlihatkan pada Tabel 4.5. Dengan kemunculan term pada query dianggap sebagai bobot query pada kolom Wq, kolom perkalian vektor q denan dokumen adalah perkalian antara vektor bobot term query dengan bobot term dokumen i dan baris jumlah adalah hasil perkalian vektor TFIDF term dokumen dengan bobot query. Tabel 4.5 Contoh Perhitungan Perkalian Vektor
Term
query
Perkalian vektor q dengan dokumen
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10
0 1 0 0 1 0 0 0 0 0
Jumlah
d1 0 0,12 0 0 0 0 0 0 0 0
d2 0 0,12 0 0 0,12 0 0 0 0 0
d3 0 0,12 0 0 0,12 0 0 0 0 0
d4 0 0 0 0 0,25 0 0 0 0 0
0,12
0,25
0,25
0,25
Setelah itu berdasarkan permaan 2.4 juga dihitung dot product (perkalian titik) dari query dan dokumen. Dengan kemunculan term pada query dianggap sebagai bobot query dan dengan bobot TFIDF pada Tabel 4.4, maka diperoleh hasil perkalian titik sebagaimana Tabel 4.6 pada kolom perkalian titik. Tabel 4.6 Contoh Hasil Perkalian Titik Dokumen Perkalian Titik 1,21 d1 1,96 d2 1,23 d3 1,33 d4 Dari hasil perkalian vektor pada Tabel 4.5 dan akar jumlah kuadrat bobot dari Tabel 4.6 selanjutnya dapat ditentukan Cosine Distance berdasarkan persamaan 2.4 sebagai berikut. • • • •
Cos(query,d1) = 0.12/1.21 = 0.08 Cos(query,d2) = 0.25/1.96 = 0.25 Cos(query,d3) = 0,25/1.23 = 0,15 Cos(query,d4) = 0.25/1,33 = 0.17
Dari hasil perhitungan tersebut maka di dapatkan jarak dari query ke dokumen d1,d2, d3 dan d4 yang dapat di lihat pada Tabel 4.7. Tabel 4.7 Hasil cosine similarity Rank
dokumen
Cosine
1
d2
0,25
2 3 4
d4 d3 d1
0,17 0,15 0,08
Karena rentang nilai Cosine Similary antara 0 sampai 1 ya ng artinya 0 dok umen yang dihitung jaraknya tidak mirip sama sekali sedangkan 1 mengindikasikan dokumen tersebut identik / mirip. Dari Tabel 4.7 dapat disimpulkan query paling dekat dengan dokumen d2.
5 Contoh Perangkingan Berdasarkan Susunan Posisi Kata dari Query Dari contoh dokumen untuk perhitungan cosine similarity pada Tabel 4.1 Representasi Dokumen Contoh Perhitungan. Dan hasil perhitungan Tabel 4.7. di hitung bobot kata dari query dengan t adalah kata dari query pada Tabel 4.1. Berdasarkan persamaan 2.5 maka diperoleh hitungan sebagai berikut: Dengan K = 4 dan di adalah dokumen yang mengandung kata dari query t: ∑𝐾 𝑖=1 𝑑𝑓(𝑡, 𝑑𝑖) × 𝑓(𝑖) = (1×0)+(1×0) +(1×1) +(1×0) dengan jumlah dokumen pada dataset yang mengandung kata dari query t: 𝑑𝑓(𝑡, 𝐶) = 1, dengan jumlah dataset sebesar R = 4, dan dengan�|𝑡| = √2 = 1,41 Maka diperoleh Wp = 1,41
Setelah didapat Wp nilai ini dikalikan pada hasil cosine similarity pada dokumen di Tabel 4.7 yang mengandung kata dari query t. Maka nilai cosine similarity baru adalah seperti pada Tabel 5.1. dari table tersebut dapat dilihat terjadi perubahan rangking dokumen d3 da ri rangking ke-4 menjadi ke-3. Tabel 5.1 Hasil Perhitungan Nilai Cosine Similarity Berdasarkan Posisi Kata Pada Query Rank
dokumen
Cosine
1 2 3 4
d2 d3 d4 d1
0,25 0,21 0,17 0,08
Pada metode ini dokumen yang dikembalikan adalah dokumen yang benar benar mengandung susunan kata pada query. Sehingga yang di kembalikan kepada pengguna adalah dokumen d3 karena mengandung susunan kata sesuai query yang diberikan pengguna.
6 Uji Coba Data yang digunakan dalam uji coba ini merupakan corpus atau kumpulan dokumen teks berbahasa Arab, yang diambil dari 20 kitab dalam perangkat lunak Maktabah Syamilah. halaman kitab-kitab sebagai suatu dokumen. Jumlah total dokumen dari seluruh kitab tersebut adalaha 6642 dokumen. Tiap dokumen tersebut terdiri dari ratarata 426 kata. Dan dari seluruh dokumen dataset tersebut terdapat 24.833 kata bebeda (distincnt term). Data uji perangkingan pada aplikasi dalam Makalah ini berupa dokumen berisi teks bahasa Arab yang diambil dari kitab pada perangkat lunak Maktabah Syamilah. Dokumen-dokumen inilah yang nanti akan diproses dari tahap preprocessing, penghapusan stopword, pembentukan kata dasar, hingga proses perangkingan itu sendiri Uji pertama dilakukan untuk melihat keterkaitan antara metode perangkingan dokumen berdasarkan posisi kata dari query dengan perangkingan dokumen berdasarkan kata per kata. Pelaksanaan uji coba ini dilakukan dengan memasukkan query satu kata setelah itu di dapat dokumen-dokumen yang dianggap relevan dengan query tersebut. Pada uji coba ini digunakan query sebanyak tiga seperti terlihat pada. Dari uji coba pertama ini diperoleh hasil temu kembali yang sama baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan dokumen berdasarkan kata per kata sebagaimana Tabel 6.1. Hasil seperti ini didapatkan karena penggunaan query satu kata saja tidak merubah rangking cosine similarity. Perubahan rangking dilakukan dengan modifikasi score cosine similarity menggunakan
Query pada Tabel 6.2 di uji cobakan pada perangkingan berdasarkan posisi kata dari query dan perangkingan kata perkata. Hasil temu kembali setiap query dari Tabel 6.2 dihitung nilai prescision, recall, dan F-Measure nya, baik untuk perangkingan berdasarkan posisi kata dari query maupun perangkingan kata per kata. Hal ini dimaksudkan untuk menganalisa performa Tabel 6.1 Hasil temu kembali pencarian satu kata perangkingan dokumen terhadap tiap query. Q1 Q2 Q3 Nilai precision yang tinggi menunjukan Rank Kitab Halaman Kitab Halaman Kitab Halaman keberhasilan pencarian dalam memberikan dokumen yang relevan pada rangkingnya. Dengan 1 22 225 13 85 8 362 nilai 1,00 mengindikasikan pencarian berhasil 2 22 225 22 4887 17 155 memberikan dokumen relevan pada 3 22 5826 22 4887 1 637 perangkingannya. 4 22 5826 22 48 8 145 Nilai recall yang semakin tinggi menunjukan 5 22 242 22 4646 22 296 keberhasilan proses pencarian dalam mendapat 6 22 242 22 48 22 296 dokumen yang relevan. Dengan nilai 1,00 7 22 231 22 4646 16 215 mengindikasikan proses pencarian berhasil 8 22 231 15 133 1 285 mendapatkan seluruh dokumen yang relevan dengan Uji coba kedua dilakukan untuk mengetahui query. keberhasilan proses perangkingan dokumen bahasa Arab berdasarkan posisi kata pada query. Tabel 6.3 Nilai Rata-Rata evaluasi uji coba II untuk Keberhasilan proses perangkingan ini bisa dilihat perangkingan berdasar posisi kata pada hasil evaluasi dengan perhitungan recall, Query Precision Recall F-Measure precission,dan F-Measure. 0,93 0,60 0,68 Q1 Pelaksanaan uji coba ini dilakukan dengan 0,63 0,15 0,23 Q2 memasukkan query dua kata setelah itu di dapat 0,67 0,44 0,52 Q3 dokumen-dokumen yang dianggap relevan dengan 0,56 0,44 0,49 Q4 query tersebut. Disini di uji cobakan query 0,70 0,50 0,53 Q5 0,48 0,29 0,33 sebanyak sebelas seperti yang terdapat pada Tabel Q6 0,50 0,47 0,52 Q7 6.2. 0,73 0,45 0,59 Q8 Tabel 6.2 Query Uji Coba II 0,47 0,27 0,34 Q9 0,44 0,29 0,32 Q10 Query Isi Relevan 0,52 0,25 0,30 Q11 Q1 ﻓﺮﺍﺋﺾ ﺍﻟﻮﺿﻮء 6 0,60 0,38 0,44 Rata-Rata Q2 23 ﺳﻨﻦ ﺍﻟﻮﺿﻮء Q3 17 ﺍﺭﻛﺎﻥ ﺍﻟﺼﻼﺓ Tabel 6.4 Nilai Rata-Rata evaluasi uji coba II untuk Q4 14 ﺳﻨﻦ ﺍﻟﺼﻼﺓ perangkingan kata per kata Q5 14 ﺻﻼﺓ ﺍﻟﺠﻤﻌﻪ Query Precision Recall F-Measure Q6 16 ﺯﻛﺎﺓ ﺍﻟﻔﻄﺮ 0,36 0,52 0,37 Q1 Q7 13 ﺯﻛﺎﺓ ﺍﻟﻤﺎﻝ 0,76 0,33 0,42 Q2 Q8 11 ﺻﻼﺓ ﺍﻟﺘﻄﻮﻉ 0,44 0,32 0,36 Q3 Q9 18 ﺻﻼﺓ ﺍﻟﻌﻴﺪﻳﻦ 0,13 0,13 0,13 Q4 Q10 16 ﺳﺠﻮﺩ ﺍﻟﺴﻬﻮ 0,32 0,24 0,26 Q5 Q11 ﺳﺠﻮﺩ ﺍﻟﺘﻼﻭﺓ 18 0,46 0,30 0,33 Q6 pembobotan kata dari query pada persamaan WP dilakukan pada dokumen yang berisi kata dari query. Dengan query yang hanya satu kata saja maka modifikasi score cosine similarity ini dilakukan pada seluruh hasil temu kembali. Sehingga rangking yang di hasilkan tidak sama dengan rangking awal sebelum modifikasi
Q7 Q8 Q9 Q10 Q11 Rata-Rata
0,46 0,43 0,46 0,37 0,67
0,42 0,46 0,30 0,27 0,36
0,42 0,43 0,34 0,29 0,43
0,44
0,33
0,34
Dari uji coba kedua metode pencarian tersebut didapati peningkatan nilai evaluasi pada perangkingan berdasarkan posisi kata dari query.dibandingakan dengan perangkingan kata per kata. Baik pada nilai evaluasi precision , recall, dan F-Measure. Nilai rata-rata keseluruhan precision meningkat dari 0,44 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,60 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. hal ini disebabkan modifikasi score yang digunakan pada pencaraian berdasarkan pisisi kata dari query mengakibatkan dokumen-dokumen yang lebih relevan dengan bentuk kata dari query dikembalikan pada rangking yang atas. Dibandingkan dengan pencarian kata per kata yang tidak menghiraukan susunan kata. Peningkatan nilai evaluasi juga didapati pada nilai rata-rata keseluruhan recall yang meningkat dari 0,33 untuk pencarian kata perkata pada Tabel 6.4 menjadi 0,38 untuk pencarian berdasarkan posisi kata dari query pada Tabel 6.3. Peningkatan ini menunjukkan dokumen-dokumen yang relevan dengan query lebih banyak di kembalikan oleh perangkingan berdasarkan posisi kata dari query. Hal ini dikarenakan metode ini menggunakan susunan kata dari query dan membentuknya sebagai kata dari query, sehingga hasil temu kembali yang dihasilkan lebih sesuai dengan konteks dari query dibandinkan dengan perangkingan kata per kata. Dengan meningkatnya hasil evaluasi precision dan recall dari perangkingan berdasarkan posisi kata dari query dibandingkan dengan perangkingan kata per kata, maka nilai rata-rata F-Measure yang dihasilkan juga meningkat. Dengan nilai rata-rata keseluruhan F-Measure perangkingan berdasarkan posisi kata dari query 0,44 pada Tabel 6.3 meningkat dari 0,34 pada Tabel 6.4 untuk perangkingan kata per kata.
7 Kesimpulan dan Saran 7B
Berdasarkan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan bahwa, perangkingan berdasarkan posisi dokumen berdasarkan posisi kata dari query dapat di aplikasikan pada pencarian teks berbahasa Arab dengan nilai rata-rata F-Measure 0,44 dengan rata-rata precision 0,60 dan rata-rata recall mencapai 0,38. Dibandingkan dengan perangkingan kata perkata nilai-nilai evaluasi perangkingan berdasarkan posisi kata dari query meningkat lebih tinggi. Untuk penelitian lebih lanjut metode yang dibahas di disini dapat di palikasikan untuk pemilihan dan pembobotan kata dari query pada query yang panjang, untuk meningkatkan kesesuaian konteks query dengan pencarian dokumen.
8 Daftar Pustaka 8B
[1] C.D. Manning, R. Prabhakar, and S. Hinrich, An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press, 2009. [2] A. Ibrahim El-Khair, "Arabic Information Retrieval," Information Science and Technology, vol. 41, no. 1, pp. 505-533, 2007. [3] G. Salton, Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer.: Addison-Wesly, 1989. [4] M. Haidar and L. Andrew, "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designe for English Do the Job?," Libri, vol. 51, pp. 63-74, 2001. [5] L.S. Leah and B. Lisa, "Improving Stemming for Arabic Information Retrieval: Light Stemming and Cooccurrence Analysis," Special Interest Group on Information Retrieval, pp. 275282, 2002. [6] E.A. Esraa, B.L. Nagma, and M.F. Tolba, "An Efficient Rangking Module for an Arabic Search Engine," International Journal of Computer Science and Network Security, vol. 10, no. 2, pp. 218-226, 2010.
[7] H.M. Suleiman, "Character Contiguity in N-gram-based Word Matching: the Case for Arabic Text Searching," Information Processing and Management, pp. 819-827, 2005. [8] N. Ahmad, Z.A. Agus, and P. Diana, Makalah Jurusan Teknik Informatika dengan Judul: Implementasi N-Gram Dalam Pencarian Teks Sebagai Penunjang Aplikasi Perpustakaan Kitab Berbahasa Arab. Surabaya, Indonesia: Institut Teknologi Sepuluh Nopember, 2011. [9] H.M. Suleiman, "Arabic String Searching in the Context of Character Code Standards and Orthographic Variations," Computer Standards and Interfaces, vol. 20, pp. 3151, 1998. [10] M. Zhu, S. Shi, M. Li, and J. Wen, "Effective top-k Computation with Term Proximity Support," Information Processing & Management, vol. 45, pp. 401-412, 2008. [11] Y. Lingpeng, J. Donghong, and L. Munkew, "Document reranking by term distribution and maximal marginal relevance for chinese information retrieval," Information Processing and Management, vol. 43, pp. 315–326, 2007.