ISSN : 1979 -911X
|ffi.t].."l
DAFTARISIBIDANG INFORMATIKA / KOMPUTER Aprk
sr
NaruEr Lanquase
p6ess
rndones a.1\r'nang Berbas s N€ws
ns Denqan Merode Rue
web
Aq€ unlrr.Pen.a,a^
E6ed pada rsFmahan
oan
15-U
Rancangan sistem Pame€n onrh€ Menggunakzn Merode
uco
(User cenrered
Ap kasi Aloor lma D,lksta Unluk P uhins Les,an
5
Percncansan Dan Pombualai oalaWarchou* pada Perpusrakaan stm kAm kom
npl.lFrlas
oo(fel
oo,ecrModeturtrkoedrj1ganLaooa.Daldoase[rysol
lhp ementasiJXTA sebaqa Plafom Jaingan PeeETo,Peor pada Mobite Device unluk
hplehenla si Ki
owred
g
e Maiagemont unruk Meninskalken Knerta peEu.uan T nqs
Desa n Algortma Pemec.han OpeEsiOasar Oata Tedisribusi Berbasis Web
Di!"ntu c@ Jahan serdwn dan kdEj i Ap (as BLLL Ere, ,o r {C-Boo., Berbass 'DoclMenlad'Pdf
A,iina[ka Dan pemodetan Sisrem Akulsisi
Weo oenolrLno
(onreN tormal D.^_men
EkaHandqqfuzllsnanta'ddnRehaArfuA
lmpem6niasr Melode Funcrion poht Unluk MensukuVotume sofh'ar€
E.Cove'lTea S'sFnDatar FitieryDanE,ernlEsp.'pJa-",
i penoadopsian Etecroni Penqatuhiya Terhadap Kinera petusahaan (srudipae peruehan K
ana risis Fa kro tsFa ktor Yang Mempensaruh
vidiAn]nyhalddrAucdinusselhEn lekn . a- Tas l1oesee...q oens a 1 TEnrformas' 2D Peoa G ar'. o1n rt 15
algorirr" Co.pan on
Oun Co"lurion untuk peioadan Halaman web
yaio TedGir
Penalaan Ulang Soltware Requ ementSpeciticalion (sRs)Sislem tnfomas Dengan P€ndekaian Rav€ree Enqinennq Eka K B'atkdia dan y.nr andiyani Aprikasi Pe
ng orah a
n
c 16 Distar
Pad a
Totopoi setu
ter
AkadeDik i5o.i56
151
-16s
htemmb, rerL Pedand
nsa
25 Mecrsur
h,oha
^emu1
Kn€rja Mdd-Mode
ap[a3'
Dan MlsOL
w* sllt
cfu]sw{ryfub*m*ali
Edlifu*hi@hhaAfun*hali) ci1ha.
hw*
*
Btd ctanne tc8c)
susuti, sFr]t, ekt,
Ratu
rM{.aE,r
ftuitM Mr
a
tuhmhd
sharett
en ttuanad Mudah
atuwahyd) hn satu anas\tuitu
oeg'iApr'ka3endngo*306
(sbdi K6.us P'od rern I rnromatl a tsr Akonnd'
IMPLEMENTASI TEMU KEMBALI INFORMASI MODEL RUANG VEKTOR UNTUK SITUS WEB 1)
2)
Nurhadi dan Amir Hamzah Jurusan Teknik Informatika, FTI, Institus Sains Dan Teknologi AKPRIND Yogyakarta email:
[email protected],
[email protected]
ABSTRACT Information is the most important thing in human life. Information is needed to support daily activity either in big scale or in small scale. Finding information that appropriate to requirement is a part of successfulness. But, getting information which match with information need is not easy task. Basic concept of information retrieval system - IRS is a concept which can be exploited to build an application which can assist in finding relevance information. By using TF-IDF (Term Frequency - Invers Document Frequency) the weight of word in document collection can be interpreted as the weight of role of word to the document. Exploiting this value can be used to measure how similar is the document and the query. The higher the value of similarity the closer the document to the user information need. Internet is a representation of document collections or unlimited information. There is much information which can be taken away from internet. To look for information in the internet it is required the existence of search engine that capable to give relevant result with information needs . Keyword: information need, query, search engine PENDAHULUAN Situs web merupakan salah salah satu sumber informasi yang banyak dipakai. Berbagai aplikasi web dibuat dengan tujuan agar para pemakai dapat berinteraksi dengan menyediakan informasi dengan mudah dan cepat, melalui dunia internet. Kendala yang dihadapi oleh pengguna internet saat ini adalah bagaimana menemukan informasi yang tersebar tanpa batas dan sesuai dengan keinginan sedangkan waktu yang tersedia cukup terbatas. Aplikasi mesin pencari merupakan sebuah aplikasi yang tepat untuk menjawab kendala yang ada. Berbagai metode dapat digunakan untuk membangun aplikasi pencarian ini. Konsep dasar sistem temu kembali informasi dapat dijadikan sebagai landasan dalam bembangunan aplikasi. Sistem temu kembali informasi merupakan sistem yang berfungsi untuk menemukan informasi yang sesuai dengan kebutuhan pemakai dalam waktu cepat. Salah satu hal mendasar yaitu bahwa informasi yang diproses merupakan informasi yang terkandung dalam sebuah dokumen yang bersifat tekstual. Teks merupakan bagian terbesar informasi dalam web (Tan, 1999). Dalam konteks ini, temu kembali informasi berkaitan dengan representasi, penyimpanan dan akses terhadap dokumen serta representasi dokumen (Salton, 1989). Dokumen yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi pengguna yang dinyatakan dalam query. Pengguna sistem temu kembali informasi sangat bervariasi dengan kebutuhan informasi yang berbeda-beda. Sistem temu kembali informasi dibedakan menjadi beberapa model, diantaranya boolean model dan model ruang vector (vector space model) (Salton et.al., 1975). Kedua model inilah yang paling sering digunakan. Pada penelitian sebelumnya yang mengangkat tema implementasi temu kembali model boolean untuk dokumen berita (Nurhadi, 2008), dapat disimpulkan bahwa tingkat relevansi antara query dengan hasil yang ditampilkan belum maksimal. Hal ini karena sistem masih menggunakan boolean model dimana nilai bobot suatu term tidak dapat diketahui. Sistem hanya menyimpan nilai representasi suatu dokumen yang memuat suatu term dalam bentuk digit boolean 1 atau 0. Dengan menggunakan model ruang vektor, maka nilai bobot suatu term dapat diketahui. Nilai bobot suatu term akan menentukan jarak antara query yang diberikan oleh pengguna dengan hasil pencarian yang disajikan oleh sistem. Nilai bobot suatu term berbanding lurus dengan nilai kepentingan term tersebut dalam sebuah dokumen. Hal ini berarti nilai relevansi antara query dan dokumen yang memuat term semakin tinggi. HASIL DAN PEMBAHASAN Sistem temu kembali informasi model ruang vektor untuk situs web merupakan sebuah sistem yang mencakup representasi, penyimpanan dan akses terhadap dokumen serta representasi dokumen. Dalam hal ini yang dimaksud sebagai dokumen adalah isi dari keseluruhan tampilan sebuah situs yang dapat diakses melalui internet. Sebagai contoh terdapat alamat situs www.example.com/news.php, maka yang dianggap sebagai dokumen adalah apa yang ditampilkan oleh browser ketika alamat web tersebut 210
dikunjungi. Tahapan yang ditempuh dalam implementasi sistem temu kembali informasi untuk situs web dengan model ruang vektor ini adalah:
Gambar 1. Tahapan implementasi sistem temu kembali informasi Pengumpulan Dokumen Proses pengumpulan dilakukan dengan cara mendaftar alamat situs (Uniform Resource Locator/ URL Address). Dari daftar alamat situs yang ada, selanjutnya alamat-alamat situs tersebut dikunjungi dan dibaca oleh unit pembaca (web crawler) untuk diambil informasi yang terkandung didalam situs tersebut (Baeza-Yates and Castillo, 2004). Hasil pembacaan akan dikirim ke unit pemilahan dokumen untuk diproses sehingga didapat suatu informasi representasi dokumen. Informasi representasi suatu dokumen dituangkan kedalam bentuk vektor, sehingga elemen-elemen vektor terdiri atas nilai representasi suatu dokumen yang mencakup nilai bobot suatu term didalam sebuah dokumen dan informasi suatu dokumen yang memuat suatu term.
Gambar 2. Representasi nilai bobot suatu term didalam suatu dokumen Pemilahan Dokumen Pada tahap pemilahan dokumen terdapat dua proses pokok yaitu document extracting dan term extracting. Document extracting dilakukan untuk mengambil isi sebuah situs sedangkan term extracting adalah sebuah proses yang dilakukan untuk memecah dokumen menjadi kata-kata terpisah. Proses ini dilakukan dengan cara membaca dokumen yang dihasilkan oleh proses document extracting dan membagi dokumen tersebut menjadi kata-kata terpisah (term – yang dipisah berdasarkan sepasi). Term extracting menghasilkan sejumlah kata. Identifikasi jumlah kata dalam setiap dokumen dan jumlah kata dalam seluruh koleksi dokumen perlu dilakukan untuk menghitung nilai bobot suatu kata dalam setiap dokumen. Terdapat beberapa hal yang perlu diperhatikan sebelum proses penghitungan nilai bobot suatu kata (term weigting) yaitu penyaringan duplikasi term, stemming dan penyaringan stop-word (Rijsbergen, 1979). Penyaringan duplikasi term Suatu term yang masih memiliki duplikasi akan dibuat menjadi term yang bersifat unik (tidak ada term yang sama dalam keseluruhan koleksi dokumen) dan akan menjadi query dalam proses pencarian. Hasil akhir dari proses penyaringan duplikasi term adalah sebuah stack yang memuat seluruh term unik. Stack merupakan sebuah array yang memiliki elemen berupa term yang bersifat unik. Stemming Steaming merupakan proses yang dilakukan untuk mendapatkan akar kata dari suatu term. Sebagai contoh apabila terdapat term ‟memakan‟, ‟dimakan‟ dan ‟makanan‟, maka dengan adanya steaming dapat ditemukan akar dari term tersebut yaitu ‟makan‟ sehingga volumen database dapat dimaksimalkan dengan hilangnya kata-kata yang memiliki akar kata yang sama dan jarak relevansi antara query dengan term lebih dekat. Penyaringan stop-word Stop-word merupakan sebuah kata yang bersifat umum dan tidak terpakai sebagai suatu term yang akan di-index ataupun sebagai query pada saat proses pencarian. Stop-word disimpan 211
didalam sebuah daftar stop-word yaitu berupa sebuah file (dalam implementasi ini, stop-word disimpan di dalam sebuah text file – stop-word.txt). Contoh dari stop-word adalah kata tanya (apa, bagaimana, siapa, mengapa, bilamana, kapan), kata penghubung (yang, dan, untuk), dan lain sebagainya. Proses penyaringan dilakukan dengan cara pengecekan satu-persatu, apakah suatu term termasuk dalam kategori stop-word. Apabila term masuk dalam kategori stop-word, maka term tersebut akan dihapus dari index.
Gambar 3. Proses penyaringan stop-word Dari ilustrasi diatas, mula-mula kata „Menjelang‟ akan diperiksa, apakah didalam kamus stopword terdapat sebuah kata „Menjelang‟. Jika ya, maka kata „Menjelang‟ akan dihapus, jika tidak maka akan dilanjutkan ke kata ‟perayaan‟. Proses ini akan berlangsung hingga semua kata dalam koleksi dokumen diperiksa, sehingga kata „dan‟ dan „di‟ akan dihilangkan. Penyajian dalam Bentuk Matrik Hasil akhir dari term extracting adalah tumpukan/ stack dari kata-kata yang bersifat unik yang disebut sebagai index. Selanjutnya index dikirim kedalam sebuah matrik 2 dimensi yang terdiri dari n kolom dan n baris. n kolom pada matrik 2 dimensi merepresentasikan tentang jumlah dokumen pada koleksi dokumen dan n baris pada matrik 2 dimensi merepresentasikan tentang jumlah term pada koleksi dokumen. Dengan menggunakan IRS Boolean Model dapat diketahui tentang informasi letak dokumen yang memuat suatu term tertentu. IRS Boolean Model merupakan konsep dasar sistem temu kembali informasi dengan merepresentasikan keberadaan suatu term dalam suatu dokumen. Nilai 1 (Boolean true) menandakan bahwa suatu term dimuat dalam sebuah dokumen, sebaliknya nilai 0 (Boolean false) menandakan bahwa term tidak dimuat dalam sebuah dokumen. Ilustrasi berikut menjelaskan tentang dokumen yang mengandung term ‟multimedia‟.
Gambar 4. IRS boolean model Ilustrasi tersebut menerangkan bahwa didalam koleksi dokumen terdapat 19 dokumen dan term ‟multimedia‟ terdapat didalam dokumen ke 1, dokumen ke 2, ke 5, ke 7, ke 8, ke 11, ke 14, ke 15 dan dokumen ke 16. Hal ini dikarenakan pada baris ‟multimedia‟, kolom yang bernilai 1 adalah kolom ke 1, 2, 5,
212
7, 8, 11, 14, 15 dan 16. Term ‟bookmark‟ terdapat didalam dokumen ke 3, dokumen ke 4, ke 5, ke 6, ke 9, ke 10, ke 11, ke 19 dan kata ‟download‟ terdapat didalam dokumen ke 4, ke 5, ke 6, ke 16, ke 17, ke 18, ke 19. Begitu juga untuk term yang lainya. Dengan menggunakan IRS vector space model, maka nilai 1 pada kolom informasi dokumen dirubah menjadi nilai bobot setiap term dalam suatu dokumen. Sehingga elemen matrik berupa nilai bobot suatu term (Salton et.al., 1975).
Gambar 5. IRS vector space model
Pembobotan Term (Term Weigting) Untuk mendapatkan nilai bobot suatu term diperlukan adanya sebuah rumus yang efektif. Adapun rumus kombinasi pembobotan term yang paling disarankan adalah rumus TF-IDF (Term Frequency – Invers Document Frequency) ternormalisasi (Salton, 1989).
(1) Keterangan: W ij = Nilai bobot term i pada dokumen ke j fij = Frekuensi term i pada dokumen ke j N = Jumlah dokumen didalam koleksi dokumen di = Jumlah dokumen yang memuat term i (fij ≠ 0) T = Julmah term didalam koleksi dokumen Sebagai contoh, dari hasil term extracting pada 15 dokumen didapat nilai frekuensi suatu term didalam setiap dokumen sebagai berikut: Tabel 1. Contoh hasil term extracting
index
dokumen#1
dokumen#2
dokumen#3
dokumen#4
dokumen#5
dokumen#6
dokumen#7
dokumen#8
dokumen#9
dokumen#10
dokumen#11
dokumen#12
dokumen#13
dokumen#14
dokumen#15
multimedia bookmark download …… Unix #n
8 0 0 -
6 0 0 -
0 5 0 -
0 6 5 -
7 5 9 -
0 6 8 -
1 0 0 -
3 0 0 -
0 1 0 -
0 7 0 -
5 1 0 -
0 0 0 -
0 0 8 -
4 0 0 -
2 0 0 -
Sebelum mendapatkan nilai bobot suatu term (Wij), alangkah baiknya jika terlebih dahulu dicari nilai pembilang dari rumus Wij diatas. Nilai pembilang didapat dari rumus (disebut sebagai Cij) sehingga apabila diterapkan pada matrik dokumen (tabel 1), maka nilai pembilang pada f(multimedia, adalah:
1)
213
Cij
=
C(multimedia, 1)
=
C(bookmark, 1)
=
Nilai Cij pada term „multimedia‟ dokumen ke 1 adalah 0,31 sedangkan nilai Cij term „bookmark‟ pada dokumen ke 1 adalah 0, hal ini disebabkan karena frekuensi term „bookmark‟ pada dokumen ke 1 bernilai 0.
dokumen#1
dokumen#2
dokumen#3
dokumen#4
dokumen#5
dokumen#6
dokumen#7
dokumen#8
dokumen#9
dokumen#10
dokumen#11
dokumen#12
dokumen#13
dokumen#14
dokumen#15
multimedia
0.31
0.27
0
0
0.29
0
0.09
0.19
0
0
0.25
0
0
0.23
0.15
bookmark
0
0
0.29
0.32
0.29
0.32
0
0
0.11
0.34
0.11
0
0
0
0
download
0
0
0
0.29
0.38
0.36
0
0
0
0
0
0
0.36
0
0
……
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Unix #n
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Gambar 6. Matrik dokumen dari rumus Cij 2
Adapun nilai penyebut dari rumus Wij adalah akar dari jumlah (Cij) dari setiap dokumen sesuai dengan banyaknya term pada koleksi dokumen. Secara matematis dapat dirumuskan menjadi:
atau
index t1 t2 t3 t4 t5 t6 t7 t8 … tn Dj
d1
d2
d3
d4
d5
d6
d7
d8
…
dn
D1
D2
D3
D4
D5
D6
D7
D8
…
Dn 2
Dj merupakan nilai penyebut pada dokumen ke j atau akar dari jumlah (Cij) pada dokumen ke j sehingga apabila diterapkan pada matrik dokumen, maka nilai Dj setiap dokumen adalah:
214
Gambar 7. Nilai penyebut (Dj) pada matrik dokumen Wij merupakan normalisasi pembobotan nilai term. Karena nilai pembilang dan penyebut dari rumus Wij telah diketahui, maka nilai bobot pada setiap term adalah:
atau
Sehingga nilai bobot dari term ‟multimedia‟ pada dokumen ke 1 dan nilai bobot dari term ‟download‟ pada dokumen ke 5 adalah:
Proses Pencarian (Query Processing) Inti dari sistem temu kembali informasi adalah proses pencarian (searching). Dengan search engine, seorang user memasukkan kata kunci (keyword) baik berupa kata, kalimat, angka atau kombinasi dari semuanya untuk menampilkan suatu informasi atau dokumen yang berhubungan dengan keyword yang diinputkan. Proses pencarian (searching) dalam search engine tidak terbatas dan user dapat menginputkan query paling spesifik sekalipun. Suatu keyword akan di-scan oleh suatu pemroses untuk mengidentifikasikan apakah keyword tersebut berupa kata tunggal atau sebuah kalimat yang terdiri dari gabungan kata. Apabila keyword berupa kata tunggal, maka search engine akan melakukan retrieve terhadap kata unik beserta informasi/ representasi dokumen yang memuatnya.
215
Gambar 8. Proses pencarian dengan keyword berupa kata multimedia Keterangan: User memasukkan sebuah keyword berupa kata Multimedia. Search engine akan mencari informasi dokumen kedalam database dengan melihat field term yang sesuai dengan kata Multimedia. Hasil pencarian berupa himpunan bilangan yaitu [0; 0.45; 0.25; 0; 0.33; 0.80; 0; 0.58; 0.55] dan [0]. Bilangan [0; 0.45; 0.25; 0; 0.33; 0.80; 0; 0.58; 0.55; 0] akan diterjemahkan oleh engine result (bagian pemrosesan yang berfungsi untuk menampilkan informasi hasil pencarian). Proses penterjemahan oleh engine result dilakukan dengan cara mengurutkan nilai bilangan tersebut dari yang paling besar ke yang paling kecil tanpa merubah nilai posisi index. Nilai Bobot 0 0.45 0.25 0 0.33 0.80 0 0.58 0.55 0 Posisi (index) 1 2 3 4 5 6 7 8 9 10 Setelah nilai bobot diurutkan menjadi: Nilai Bobot 0.80 0.58 0.55 Posisi (index) 6 8 9
0.45 2
0.33 5
0.25 3
0 1
0 4
0 7
0 10
Sehingga engine result akan menampilkan hasil pencarian berupa dokumen ke 6, dokumen ke 8, ke 9, ke 2, ke 5 dan dokumen ke 3. Sedangkan dokumen ke 1, ke 4, ke 7 dan dokumen ke 10 tidak akan ditampilkan karena nilai bobot bernilai 0. Apabila keyword terdiri dari 2 kata atau lebih maka search engine akan melakukan retrieve untuk kata-kata tersebut terhadap kata unik beserta informasi dokumen yang terdapat didalam database. Hasil pencarian dengan keyword lebih dari 1 kata akan dijumlahkan berdasarkan urutan dokumen. Engine result akan merangking hasil penjumlahan tersebut berdasarkan nilai bobot dari nilai tertinggi hingga nilai terendah dan untuk selanjutnya ditampilkan kepada user.
Gambar 9. Hasil pencarian dengan keyword lebih dari 1 kata Nilai penjumlahan dari hasil pencarian:
216
Nilai Bobot Posisi (index)
0.23 1
1.19 2
0.25 3
Setelah nilai bobot diurutkan menjadi: Nilai Bobot 1.19 0.80 0.58 Posisi (index) 2 6 5
0 4
0.58 5
0.80 6
0.25 7
0.58 8
0.55 9
0 10
0.58 8
0.55 9
0.25 3
0.25 7
0.23 1
0 4
0 10
Sehingga engine result akan menampilkan hasil pencarian berupa dokumen ke 2, dokumen ke 6, ke 5, ke 8, ke 9, ke 3, ke 7 dan dokumen ke 1. Sedangkan dokumen ke 4 dan dokumen ke 10 tidak akan ditampilkan karena nilai bobot bernilai 0. Untuk menampilkan tampilan hasil pencarian kepada user, maka dapat merujuk ke daftar alamat situs yang telah ada. Dengan demikian berdasarkan hasil pencarian yang ada, maka situs yang akan ditampilkan kepada user adalah situs yang menempati urutan ke 2, ke 6, ke 5, ke 8, ke 9, ke 3, ke 7, ke 1 pada daftar situs. Evaluasi Sistem Temu Kembali Informasi Evaluasi sistem temu kembali informasi merupakan sebuah upaya untuk memberikan kepuasan kepada user dalam rangka menampilkan suatu hasil pencarian yang relevan terhadap suatu query. Ada beberapa aspek yang dapat digunakan untuk mengukur efektifitas sistem yaitu recall dan precision. Sebagai contoh terdapat 11 dokumen yang dapat digunakan untuk menguji efektifitas dari sistem yang telah dibuat. Dari pengamatan yang dilakukan secara manual terhadap contoh dokumen yang ada, maka dapat dibuat sebuah daftar query dan dokumen yang relevan terhadap suatu query sebagai berikut:
Query calon haji Gam Tki tki illegal Final panglima gam piala italia jalur selatan
d1 1 0 0 0 0 0 0 0
Tabel 2. Tabel daftar query hasil evaluasi manual Dokumen yang Relevan terhadap Query d2 d3 d4 d5 d6 d7 d8 d9 d10 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
d11 0 1 0 0 0 0 0 0
∑ rel 2 3 3 1 2 2 1 1
Sebagai contoh jika diberikan query berupa kata ‟calon haji‟, maka berdasarkan evaluasi manual, dokumen yang relevan adalah dokumen ke 1 dan ke 5. Dengan menggunakan sistem yang telah dibuat dengan query yang sama yaitu ‟calon haji‟, dari hasil pencarian sistem memberikan sebuah result berupa:
Gambar 10. Hasil pencarian dengan keyword ‟calon haji‟ Hasil yang diberikan oleh sistem tampak berbeda dengan manual. Hal ini dikarenakan pada dokumen ke 8 memuat term „calon’ dan nilai bobot term ‟calon haji‟ untuk setiap dokumen berbeda sehingga nilai bobot tertinggi akan ditampilkan pada baris paling atas (dokumen ke 5). Dari hasil yang ada, dapat dicari nilai precision dan recall yaitu:
217
∑ relevan dipanggil adalah jumlah dokumen relevan yang ditampilkan oleh sistem, sedangkan ∑ relevan dalam koleksi adalah jumlah seluruh dokumen relevan yang berada didalam koleksi. Karena jumlah dokumen relevan didalam koleksi = 2 dan dokumen relevan yang dipanggil adalah 2, maka nilai recall = 1. Sedangkan nilai precision adalah 0,67. Hal ini dikarenakan jumlah dokumen relevan yang dipanggil oleh sistem adalah 2 dan jumlah dokumen hasil pencarian yang ditampilkan adalah 3. Untuk mendapatkan nilai prercision dengan tingkat presisi yang tinggi, maka dapat dibuat suatu batasan dalam menentukan jumlah dokumen yang akan dipanggil. Sehingga nilai penyebut dari precision (∑ doc dipanggil) dapat lebih kecil. Precision dan recall dapat digunakan untuk mencari F-measure dan E-measure.
Pada kondisi ideal, F akan bernilai 1 dan E akan bernilai 0 yaitu jika seluruh dokumen relevan diambil (R=1) dan seluruh dokumen yang diambil adalah relevan (P=1). Dari hasil evaluasi didapat nilai precision dari query ’calon haji’ adalah 0,67. Sementara nilai recall dari query ‟calon‟ bernilai 1. Dengan demikian, karena nilai precission dan recall bernilai 1 dan/ atau mendekati nilai 1 dapat disimpulkan bahwa sistem yang dibuat mendekati nilai sempurna.
KESIMPULAN 1. Keberadaan aplikasi pencarian sebagai sebuah tool yang dapat digunakan masyarakat luas untuk membantu mencari suatu informasi yang berada di internet/ situs web. 2. Aplikasi ini menawarkan relevansi dalam menampilkan suatu hasil pencarian. Selain itu, aplikasi ini juga mudah digunakan karena memiliki tampilan yang sederhana dengan tidak mengesampingkan fungsi dasar sebagai mesin pencari. 3. Dengan model ruang vektor pada implementasi sistem temu kembali informasi ini, maka suatu kata (term) dapat diketahui nilai bobotnya sehingga jarak antara query dengan term dapat diketahui. Hal ini sangat berpengaruh terhadap tingkat presisi dari relevansi dokumen dengan query yang diberikan. 4. Tidak berlakunya operasi Boolean OR, NOT, AND ataupun XOR. Hal ini disebabkan karena model ruang vektor menggunakan nilai bobot/ rangking dalam menentukan suatu hasil pencarian. Term dengan nilai bobot yang paling tinggi dan sesuai dengan query yang akan ditampilkan. 5. Berkaitan dengan proses pencarian, query yang dimasukkan adalah query kata, sehingga proses pencarian dilakukan dengan matching kata. Sebagai contoh ketika user memasukkan kata „sepakbol’, kemungkinan besar sistem tidak akan menampilkan dokumen apapun atau dokumen yang berkaitan dengan sepakbola karena kata „sepakbol’ berbeda dengan „sepakbola’. 6. Evaluasi sistem temu kembali informasi memberikan hasil yang baik. Antara recall dam precision mendekati atau bernilai 1, dengan demikian rumus TF-IDF ternormalisasi untuk pembobotan term berjalan dengan baik. 7. Dari hasil pengujian extracting 30 dokumen pada komputer dengan spesifikasi prosesor intel pentium 4 (3.00 GHz), memori 512 MB pada keadaan 78% free space in paging file dan 22% free physical memory memakan waktu selama 7 detik. SARAN 1. Berkaitan dengan pengumpulan dokumen, hendaknya pengumpulan dilakukan secara dinamis dengan memanfaatkan algoritma web-spider. 2. Pencarian hanya dapat dilakukan perkata. Diharapkan agar kedepan mampu memproses pencarian dengan dua kata yang digabung menggunakan tanda petik. Sebagai contoh jika saat ini hanya mampu memproses query piala dunia (dianggap sebagai dua kata) maka diharapkan sistem mampu memproses query ”piala dunia” (dianggap sebagai satu kata). 3. WEB crawler yang ada belum mampu bekerja secara maksimal. Hal ini terbukti bahwa hasil pembacaan situs web masih berupa plain text sehingga tingkat kepentingan suatu kalimat dalam sebuah situs tidak diketahui. Sebagai contoh jika didalam sebuah situs terdapat sebuah kalimat yang bergaris bawah atau tercetak tebal, biasanya kalimat tersebut merupakan kalimat penegasan dan 218
4.
5.
penting. Diharapkan agar sistem mampu mengetahui bahwa kalimat tersebut penting dan sangat berpengaruh terhadap relevansi pencarian. Berkaitan dengan proses ekstrak alamat situs yang baru, pada sistem ini ekstrak dilakukan secara berulang terhadap seluruh daftar alamat situs. Artinya apabila terdapat situs baru maka sistem akan mengekstrak ulang seluruh situs yang terdaftar. Hal ini dikarenakan proses ekstrak sangat berpengaruh terhadap bobot suatu term didalam koleksi dan apabila tidak dilakukan ekstrak ulang situs yang lama maka nilai bobot setiap term menjadi tidak valid. Diharapkan agar ekstrak ulang dapat dilakukan sekali untuk setiap situs dan tidak perlu diulang. Hal ini dapat dilakukan dengan mengupdate nilai bobot suatu term yang telah termuat oleh situs lain. Hendaknya sistem mampu memberikan tambahan solusi apabila user melakukan kesalahan dalam menginputkan query. Sebagai contoh query yang diinputkan adalah ‟Microsoft wor‟, maka hendaknya sistem memberikan tanggapan berupa ”Apakah yang anda maksud Microsoft word?”.
DAFTAR PUSTAKA Baeza-Yates, R. And C. Castillo, 2004, ”Crawling the Infinite web: Five level are enough”, Center for Web Research, DCC, Universidad de Chile. Nurhadi, 2008, Implementasi Temu Kembali Informasi Model Boolean untuk Dokumen Berita, IST ”AKPRIND”, Yogyakarta. Rijsbergen, C. J.,1979, Information Retrieval, Information Retrieval Group, University of Glasgow , UK Salton, G., A. Wong, and C.S. Yang, 1975, “A Vector Space Model for Automatic Indexing”, Communication of the ACM, Vol.18. Num.11, Nov 1975. Salton, G., 1989, “Automatix Text Processing, The Trnasformation, Analysis, and Retrieval of Information by Computer”, Cornell University, Addison Wisley Publishing Comp, New York. Tan, Ah-Hwee, 1999, “Text Mining: The state of the art and the challenges”, Kent Ridge Digital Labs 21 Heng Mui Keng Terrace Singapore 119613
219