ffi.t].."l ISSN : X

ISSN : 1979 -911X

|ffi.t].."l

DAFTARISIBIDANG INFORMATIKA / KOMPUTER Aprk

sr

NaruEr Lanquase

p6ess

rndones a.1\r'nang Berbas s N€ws

ns Denqan Merode Rue

web

Aq€ unlrr.Pen.a,a^

E6ed pada rsFmahan

oan

15-U

Rancangan sistem Pame€n onrh€ Menggunakzn Merode

uco

(User cenrered

Ap kasi Aloor lma D,lksta Unluk P uhins Les,an

5

Percncansan Dan Pombualai oalaWarchou* pada Perpusrakaan stm kAm kom

npl.lFrlas

oo(fel

oo,ecrModeturtrkoedrj1ganLaooa.Daldoase[rysol

lhp ementasiJXTA sebaqa Plafom Jaingan PeeETo,Peor pada Mobite Device unluk

hplehenla si Ki

owred

g

e Maiagemont unruk Meninskalken Knerta peEu.uan T nqs

Desa n Algortma Pemec.han OpeEsiOasar Oata Tedisribusi Berbasis Web

Di!"ntu c@ Jahan serdwn dan kdEj i Ap (as BLLL Ere, ,o r {C-Boo., Berbass 'DoclMenlad'Pdf

A,iina[ka Dan pemodetan Sisrem Akulsisi

Weo oenolrLno

(onreN tormal D.^_men

EkaHandqqfuzllsnanta'ddnRehaArfuA

lmpem6niasr Melode Funcrion poht Unluk MensukuVotume sofh'ar€

E.Cove'lTea S'sFnDatar FitieryDanE,ernlEsp.'pJa-",

i penoadopsian Etecroni Penqatuhiya Terhadap Kinera petusahaan (srudipae peruehan K

ana risis Fa kro tsFa ktor Yang Mempensaruh

vidiAn]nyhalddrAucdinusselhEn lekn . a- Tas l1oesee...q oens a 1 TEnrformas' 2D Peoa G ar'. o1n rt 15

algorirr" Co.pan on

Oun Co"lurion untuk peioadan Halaman web

yaio TedGir

Penalaan Ulang Soltware Requ ementSpeciticalion (sRs)Sislem tnfomas Dengan P€ndekaian Rav€ree Enqinennq Eka K B'atkdia dan y.nr andiyani Aprikasi Pe

ng orah a

n

c 16 Distar

Pad a

Totopoi setu

ter

AkadeDik i5o.i56

151

-16s

htemmb, rerL Pedand

nsa

25 Mecrsur

h,oha

^emu1

Kn€rja Mdd-Mode

ap[a3'

Dan MlsOL

w* sllt

cfu]sw{ryfub*m*ali

Edlifu*hi@hhaAfun*hali) ci1ha.

hw*

*

Btd ctanne tc8c)

susuti, sFr]t, ekt,

Ratu

rM{.aE,r

ftuitM Mr

a

tuhmhd

sharett

en ttuanad Mudah

atuwahyd) hn satu anas\tuitu

oeg'iApr'ka3endngo*306

(sbdi K6.us P'od rern I rnromatl a tsr Akonnd'

PERBANDINGAN KINERJA MODEL-MODEL TEMU KEMBALI PADA SISTEM TEMU KEMBALI INFORMASI DOKUMEN BERBAHASA INDONESIA 1)

2)

2)

3)

Amir Hamzah , F. Soesianto , Adhi Susanto , dan Jazi Eko Istiyanto , 1)

Jurusan Teknik Informatika, Institut Sains & Teknologi AKPRIND Yogyakarta E-mail : [email protected], [email protected] 2) Jurusan Teknik Elektro, Fakultas Teknik, Universitas Gadjah Mada 2 [email protected], [email protected] 3) Jurusan Fisika, Fakultas MIPA, Universitas Gadjah Mada

ABSTRACT In a text information retrieval system, a huge volume of text and language characteristic has caused search system faced difficulties. Many models has been proposed to find an effective retrieval system, such as vector space model (VSM), probabilistic model (PM), Latent Semantic Indexing (LSI), artificial neural network model, Boolean model, fuzzy set model and genetic algorithm model. Among those models three models i.e. VSM, PM and LSI were considered to have many advantages. VSM model view document and query as vectors and retrieval results as document list ranked according to similarity between document voctor and query vector. PM model ranks document based on relevance probability of document to the query. LSI model transforms term-document matrix using SVD and projected document vectors and query vectors into lower dimension with higher accuracy. This research was conducted to compare the performances of those three retrieval model. VSM model was tested not only based on term matching but also extended to concept matching using clustering technique. In the PM model the maximum entropy approach was used. For LSI model, term-document matrix X was transformed according to [U,S,V]=svd(X) and k dimension was chosen so that document vector and query vector was transformed into k dimension. The parameters for measure the performance were recall, precision and F-measure. The test data collections were 1009 and 3000 news documents and 450 abstract documents. The results showed that the performance of VSM using concept approach was outperformed LSI model and probability model. Key word : retrieval model, concept-matching, clustering

INTISARI Dalam Sistem Temu Kembali Informasi (STKI) dokumen teks, volume teks yang sangat besar dan karakteristik bahasa telah menyebabkan sistem pencarian mengalami kesulitan. Banyak model telah diajukan untuk menemukan sistem temu kembali yang efektif, antara lain model ruang vektor (vector space model=VSM), model probabilistik (probabilistic model=PM), model semantik Latent Semantic Indexing (LSI), model jaringan syaraf tiruan, model boolean, model himpunan fuzzy dan model pendekatan algoritma genetika. Di antara banyak model tersebut tiga model, yaitu VSM, PM dan LSI dipercaya memiliki banyak keunggulan. Model VSM melihat dokumen dan query sebagai vektor dan hasil temu kembali merupakan daftar dokumen yang diranking berdasar kesamaan vektor query dan vektor dokumen. Model PM meranking dokumen berdasarkan probabilitas relevansi suatu dokumen terhadap query tertentu. Model LSI melakukan transformasi matriks kata dokumen menggunakan svd, dan memproyeksikan vektor dokumen dan vektor query pada dimensi yang lebih rendah dengan akurasi yang lebih tinggi. Penelitian ini bertujuan untuk melakukan studi perbandingan unjuk kerja tiga model tersebut. Model VSM diuji tidak hanya dalam formula dasar berbasis term tetapi dikembangkan dengan temu kembali berbasis konsep menggunakan teknik clustering. Untuk model PM digunakan pendekatan maximum entropy (ME) untuk menurunkan parameter-parameter modelnya. Sedangkan untuk model LSI, faktorisasi matrix kata-dokumen X menjadi tiga matriks U, S dan V yang memenuhi [U,S,V]=svd(X). Selanjutnya dipilih k tertentu sehingga vektor dokumen dan vektor query diproyeksikan dalam dimensi k tersebut. Parameter yang digunakan untuk membandingkan kinerja algoritma adalah recall, precision dan parameter F-measure. Data dokumen teks diambil koleksi dokumen berita sebanyak 1009 dokumen dan 3000 dokumen, serta dokumen abstrak akademik sebanyak 450 dokumen. Hasil penelitian menunjukkan bahwa baik pada koleksi dokumen berita maupun dokumen abstrak pendekatan VSM dengan pendekatan konsep lebih unggul dari pada model LSI dan model probabilitas. Kata kunci : model temu kembali, pencocokan konsep, clustering

220

PENDAHULUAN Sumber informasi teks on-line yang berkembang pesat telah menimbulkan kesulitan dalam organisasi, navigasi, temu kembali (Information Retrieval = IR). Melimpahnya data dalam koleksi juga telah menyebabkan tidak akuratnya retrieval oleh sistem IR (Zamir, 1999). Banyak model Sistem Temu Kembali Informasi (STKI) atau sistem IR telah diajukan dalam riset-riset di bidang IR. Menurut Grossman and Frieder (2004), sampai saat ini belum ada studi yang intensif membandingkan keseluruhan modelmodel retrieval, kecuali sebagian model-model saja. Perbandingan model inference network dengan model probabilistic dilakukan oleh Turtle (1991). Beberapa studi perbandingan LSI dengan VSM pernah dilakukan antara lain oleh Dumais (1994) dengan koleksi dokumen TIPSTER dan Karypis and Hong (2000) dengan koleksi dokumen CRANFIELD. Saat ini masih sangat sedikit penelitian dibidang sistem IR yang berbasis bahasa Indonesia (Nazief, 2000; Vega, 2001). Menurut Asian et.al.(2004), Indonesia dengan jumlah penduduk diatas dua ratus juta saat ini sangat memerlukan penelitian untuk optimasi sistem IR berbasis bahasa Indonesia. Beberapa kajian sistem IR bahasa Indonesia antara lain Mustangimah (1998) dengan objek teks dari abtrak penelitian BATAN. Penelitian lain adalah oleh Vega (2001) yang menggunakan model ruang vektor dan Anung (2002) yang menggunakan model jaringan syaraf tiruan. Penelitian yang membandingkan tiga model, yaitu Vector Space Model (VSM), Latent Semantic Indexing (LSI) dan Probabilistic Model (PM) belum pernah dilakukan. Ketiga model tersebut dipilih karena merupakan model-model yang banyak digunakan dan dianggap memiliki keunggulan masing-masing. Penelitian ini bertujuan untuk mengkaji unjuk kerja model-model retrieval dari tiga model yang paling banyak dikaji dan digunakan dalam sistem IR dengan menggunakan basis dokumen teks bahasa Indonesia. Hal-hal yang ingin dicapai dalam penelitian ini antara lain: 1. Mengkaji dan membandingkan model ruang vektor (VSM) pendekatan word-matching dan concept-matching dengan model LSI yang memiliki keunggulan reduksi dimensi dan pendekatan konsep pada operasi matching query dengan dokumen. 2. Mengkaji dan membandingkan VSM dan LSI dengan model pendekatan probabilistic yang memiliki cara pandang yang berbeda dalam merangking dokumen, yaitu relevansi diukur dengan tingkat probabilitas. Problem mendasar dalam IR terletak antara lain dalam persoalan pengindeksan term yang mewakili dokumen (Salton and Wong, 1975), teknik pencocokan query dengan dokumen (Rijsbergen,1979), dan penyajian hasil query (Zamir,1999). Dari tiga problem tersebut pencocokan query dengan dokumen untuk mendapatkan dokumen yang relevan merupakan persoalan yang melahirkan berbagai model retrieval. Sedikitnya sembilan model strategi retrieval telah diajukan, antara lain secara kronologis : strategi vector space model (VSM) (Salton and Wong 1975), probabilistic model (PM) (Robertson ,1977; Rijsbergen, 1979), extended boolean model (Fox,1983), neural network (Belew, 1989), Latent Semantic Indexing (LSI)(Deerwaster et.al, 1990), fuzzy set retrieval model (Lucarella and Morara, 1991), genetic algorithm (Yang and Korfhage, 1994; Chen, 1995), inference networks (Greift,1996), dan language model (Ponte and Croft, 1998). Dalam model ruang vektor (VSM) yang pertama kali diajukan oleh Salton and Wong (1975), baik dokumen maupun query diwakili oleh suatu vektor dalam ruang T, dimana T adalah cacah term terindeks yang diekstraksi dari koleksi dokumen setelah dibuang stop-word. Selanjutnya koleksi dokumen dapat diekspresikan dalam bentuk matriks Term-document berordo TxN berikut: X={xij} i =1,2,...,T; j =1,2,...,N

(1)

dengan T = cacah term terindeks N = cacah dokumen dalam koleksi xij= frekuensi kemunculan term ke-i dalam dokumen ke-j. Penggunaan frekuensi kemunculan term sebagai bobot kepentingan term dalam dokumen ternyata tidak cukup memadai. Penelitian tentang pengaruh pembobotan term dilakukan oleh Chisholm and Kolda (1999). Dari berbagai kombinasi fungsi pembobotan tersebut fungsi yang paling banyak digunakan adalah bentuk ntf atau TF-IDF ternormalisasi (Dhillon et.al., 2001), yaitu bobot term ke-i dalam dokumen ke-j diwakili oleh faktor TF, faktor IDF dan normalisasi di mana TF= ln( f ij ) +1, IDF = log  N  n   i dan normalisasi adalah upaya agar vektor TF-IDF memiliki panjang 1. Sehingga formula pembobotan adalah :

221

wij=

N (ln( f ij )  1).log   ni      (ln( f ij )  1).log N    n    i  

(2) 2

dengan : fij= frekuensi term ke-i dalam dokumen ke-j N = cacah dokumen dalam koleksi ni=cacah dokumen dalam koleksi yang memuat term ke-i Dalam model VSM relevansi dokumen D terhadap suatu query Q diranking berdasarkan similaritas vektor dokumen dengan vektor query. Dari berbagai macam fungsi similaritas yang ada seperti Dice, Jaccard, Overlap, asimmetric, Minowski distance, Euclidean distance, Pearson Correlation dan Cosine, ternyata fungsi similaritas yang terbaik adalah fungsi cosine (Rijsbergen, 1979; Strehl et.al., 2000). Fungsi similaritas cosine untuk 2 buah vektor satuan juga memiliki keuntungan dalam kompleksitas komputasi yang rendah karena hanya berupa perkalian dot-product dari vektor dokumen D dengan vektor query Q. T

sim(D,Q) =

D Q i 1

i

i

(3)

Model temu kembali VSM berbasis term memiliki kelemahan mendasar terkait dengan karakteristik bahasa yaitu persoalan synonimy dan polysemy. Sinonymy adalah karakter bahasa bahwa suatu konsep atau pengertian dapat diwakili oleh lebih dari satu kata (term). Hal ini berefek pada pemanggilan dokumen yang tidak relevan hanya karena dokumen tersebut mengandung term dalam query yang memiliki pengertian berbeda dengan user. Polysemy adalah karakter bahasa bahwa satu kata dapat memiliki lebih dari satu makna, hal ini juga berakibat tidak terpanggilnya dokumen relevan dalam koleksi karena query menggunakan ungkapan kata yang berbeda dengan dokumen. Untuk problem ini solusi yang dapat diajukan adalah menggunakan pendekatan retrieval berbasis konsep sebagai pengganti retrieval berbasis kata (Oscan and Aslandogan, 2004). Persoalan yang dihadapi dalam model terakhir ini terletak pada kenyataan bahwa mengekstrak konsep dari koleksi dokumen tidak semudah mengekstrak kata. Beberapa cara yang ditempuh untuk mengekstrak konsep dari koleksi dokumen antara lain dengan cara menyusun jaringan konsep (Zeng and Yang, 2003), menggunakan ontologi (Khan ,2000), atau memanfaatkan clustering dokumen (Karypis and Han, 2000). Penelitian Hamzah dkk (2007) menunjukkan bahwa dengan membuat model temu kembali berbasis konsep dapat meningkatkan efektivitas temu kembali dibandingkan dengan temu kembali berbasis term saja secara signifikan. Dalam penelitian ini konsep diekstrak dengan menggunakan clustering dokumen. Pusat kluster digunakan sebagai konsep dan disusun matriks konsep-dokumen. Selanjutnya score ranking relevansi dokumen dengan query digunakan formula : Document score = ( x ConceptScore) + ((1- ) x TermScore)

(4)

dengan  adalah parameter bernilai 0 sampai 1 yang menunjukkan bobot relevansi konsep. TermScore adalah similaritas query dengan dokumen dengan term-matching (rumus (3)), sedangkan conceptScore adalah similaritas query dengan dokumen jika dokumen diwakili oleh vektor konsep. Model LSI mengkritisi model VSM karena matching antara query dan dokumen dilakukan dlam level kata (term), yang memiliki kelamahan karena faktor problem sinonimy dan polysemy. Dalam model LSI, matriks term-dokumen dalam rumus (1) didekomposisi dengan faktorisasi matriks SVD (Singular Value Decomposition) (Deerwaster et.al, 1990). Transformasi ini akan membuang noise (karena problem sinonimy dan polysemy) dalam dokumen sehingga dua dokumen yang relatif sama secara semantic akan berdekatan dalam ruang vektor hasil transformasi baru meskipun mereka menggunakan term yang berbeda. Proses transformasi SVD dapat dilakukan secara langsung dari matriks X={xij} dengan xij adalah frekuensi term-i dalam dokumen ke-j, yaitu : X = UV

T

(5)

Matriks  adalah diagonal matriks yang elemennya adalah nilai-nilai singular. Sejumlah nilai k singular value terbesar dapat dipilih sedemikian sehingga representasi “latent semantic” berdimensi k digunakan 222

untuk mewakili matriks X. Nilai singular yang lain kemudian diset 0, dan hanya k kolom pertama dari T T matriks U dipertahankan (Uk), dan hanya k baris pertama dari V dipertahankan, dinotasikan dengan V k. Matriks baru Xk dibangkitkan sebagai aproksimasi X dengan k dimensi, sehingga menjadi : Xk = UkkV T

T k

(6)

T

Untuk memetakan dokumen d dan query q dalam dimensi T kedalam ruang dimensi k dilakukan T -1 T -1 dengan cara : dk=d Ukk dan qk=q Ukk . Proses selanjutnya untuk ranking dokumen dihitung dengan fungsi similaritas cosine dengan menggunakan vektor dokumen dan vektor query dalam dimensi k. Model PM mendefinisikan relevansi berdasarkan prinsip Probability Ranking Principle (PRP), yaitu efektivitas optimal akan dicapai jika dokumen diranking berdasarkan estimasi probabilitas relevan suatu dokumen terhadap suatu query (Robertson, 1977). Prinsip ini direalisir dengan menetapkan estimasi terhadap probabilitas dari komponen-komponen penyusun query (term-term) dan kemudian menggunakan untuk estimasi probabilitas relevansi dokumen terhadap query. Tiap term dalam query diberi bobot yang sebanding dengan probabilitas bahwa tiap satu term akan memanggil dokumen yang relevan. Andaikan suatu dokumen di mengandung T term dengan bobot (w1,w2,...,wT), dimana wi adalah estimasi probabilitas bahwa jika term ini muncul maka dokumen i akan relevan. Untuk tiap term dalam query, bobot (“odds”) bahwa dokumen akan relevan adalah :

P( wi | rel ) P( wi | nonrel)

(7)

Dengan asumsi term-term dalm query adalah independent maka estimasi bobot dokumen akan relevan adalah : T

log( i 1

T P( wi | rel ) P( wi | rel )  log P( wi | nonrel) i 1 P( wi | nonrel)

bahwa

(8)

Jika informasi relevansi suatu koleksi dokumen terhadap suatu query diketahui, maka rumus (8) dapat diestimasi dengan rumus sebagai berikut (Robertson and Jones, 1976) :

r  0.5     ( R  r  0 . 5 ) wi =   (n  r  0.5)    ( N  n)  ( R  r )  0.5 

(9)

dengan : N = cacah dokumen dalam koleksi n = cacah dokumen yang memuat term ke i R = cacah dokumen yang relevan terhadap query r = cacah dokumen yang relevan terhadap query yang memuat term ke Skor relevansi dokumen terhadap query selanjutnya diperoleh dengan menjumlahkan bobot wi untuk tiap term dalam query jika dokumen tersebut mengandung term dalam query. Apabila informasi relevansi dokumen terhadap query tidak diketahui maka skor relevansi dokumen Dj dengan query Q dapat diestimasi dengan (Croft and Harper, 1979) : SC(Q,Dj) = C

dengan

T

T

i 1

i 1

 qi d ij   qi d ij log

N  ni ni

(10)

N = cacah dokumen dalam koleksi ni=cacah dokumen yang memuat term ke i R = cacah dokumen yang relevan terhadap query r= cacah dokumen yang relevan terhadap query yang memuat term ke i

Untuk mengevaluasi kinerja berbagai algoritma temu kembali digunakan ukuran F-measure seperti berikut : 223

F-measure =

2 PR PR

(11)

dengan P = Precision, yaitu : Precision =

T otalcacah dokumen relevan yangdipanggil T otalCacah dokumen yangdipanggil

(12)

Dan R = Recall, yaitu : Recall =

Total cacah dokumen relevan yang dipanggil Total Cacah Relevan dalam koleksi

(13)

Bahan Penelitian berupa test-collection dokumen teks yang terdiri dari: a). Koleksi dokumen berita yang diambil dari Kompas Januari 2002-Juni 2002, berupa koleksi 1009 buah dokumen dan koleksi 3000 dokumen dengan statistik sebagai berikut : Tabel 1. Statistik Koleksi dokumen Test untuk Dokumen Berita Nama Koleksi Cacah Cacah Cch Kata Rerata juml dokumen cluster Uniq kata/dok Nws1009.dok 1009 21 18.259 425 Nws1370.dok 1370 25 23.398 411 Nws3000.dok 3000 35.282 397 b). Koleksi berupa abstrak dari artikel ilmiah yang diambil dari bidang teknologi Informasi pada berbagai seminar di Indonesia. Statistik untuk koleksi ini adalah sebagai berikut :

Nama Koleksi ABS.dok

Tabel 2. Nama Koleksi Dokumen Teks Akademik Abstrak Cacah Cacah Cch Kata Rerata juml dokumen cluster Unik kata/dok 450 30 84.690 203

Format identitas tiap dokumen adalah seperti pada Gambar 1. berikut : news10513-html mayjen syafrie samsuddin akan jadi kapuspen tni jakarta media mantan pangdam jaya mayjen syafrie samsuddin akan menjadi kapuspen tni menggantikan 1. Format Koleksi Dokumen untuk Tes marsekal Gambar muda graito husodo menurut berita informasi yang Gambar 1. Formatkamis dokumen dalam koleksi diperoleh antara jakarta syafrie samsuddin menjadi kapuspen tni dan serah terima jabatan akan dilakukan pada akhir februari 2002 m-1

Gambar 1. Format Koleksi Dokumen berita untuk Tes

Dari koleksi tersebut dilakukan langkah-langkah pre-procesising berikutnya, yang terdiri dari parsing, pembuangan stop-word (stop-word filtering) dan pembobotan term (term-weighting). Setiap koleksi dilengkapi dengan daftar query dan relevance judgement untuk tiap dokumen terhadap query yang bersangkutan. Adapun daftar query tersebut seperti Tabel 3, Tabel 4, Tabel 5 dan Tabel 6.

224

No 1 2 3 4 5 6 7 8 9 10

Tabel 3 Daftar Query untuk Koleksi Dokumen Berita Nws1009.dok Query Num of Relevan Doc pemberangkatan jamaah haji pertandingan piala dunia pasar uang dolar penumpasan gam aceh kerusuhan ambon maluku pertandingan tinju tyson lewis tki indonesia di malaysia penyelesaian kaus tommy suharto pertandingan tenis junior penyelesaian kasus bulog akbar tanjung

38 183 67 61 51 21 30 67 30 83

Tabel 4. Daftar Query untuk Koleksi Dokumen Berita Nws1370.dok No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Query pemberangkatan jamaah haji pertandingan piala dunia kerusuhan ambon maluku penumpasan gam aceh tki indonesia di malaysia obligor pkps tidak kooperatif pasar uang dolar kerjasama anti terorisme pertandingan tinju tyson lewis pertandingan tenis junior pertandingan piala thomas penyelesaian kasus bulog akbar tanjung penyelesaian kasus tommy suharto bppn, konglomerat dan tender bca sikap dpr dan pemerintah pada kunjungan pm australia howard ke indonesia kecelakaan peswat terbang korban air bah dan banjir jakarta dan sekitarnya Presiden ke timtim hadiri pelantikan xanana kunjungan megawati ke luar negeri dampak kenaikan harga bbm Program dan krisis nuklir iran kunjungan bush ke Indonesia kasus dan skandal blbi anggaran pendidikan nasional krisis karena langka minyak tanah

Num of Relevan Doc 40 183 51 62 30 34 67 83 21 30 20 84 67 32 12 22 42 35 41 18 150 96 53 36 61

225

Tabel 5. Daftar query untuk koleksi Nws3000.dok No 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Query "hubungan indonesia australia setelah timor timur" "kecelakaan pesawat udara indonesia" "pemberantasan narkoba" "situasi banjir jakarta" "duta besar indonesia" "nama suami megawati" "pemenang pertandingan piala thomas jenis apapun asal indonesia" "nama bos manchester united" "laporan piala dunia" "nilai tukar rupiah terhadap dolar as" "aktor aktris calon atau pemenang oscar" "akibat kenaikan harga bbm" "persidangan tommy soeharto" "kunjungan luar negeri megawati"

Rel Doc 10 22 17 40 31 32 8 27 60 74 3 19 45 36

Tabel 6. Daftar Query untuk Koleksi Dokumen Akademik Abs2.dok No 1 2 3 4 5 6 7 8 9 10

Query Aplikasi logika fuzy Sistem informasi Jaringan syaraf tiruan Pengolahan citra Algoritma genetika Database Sistem pendukung keputusan GPS GPRS komunikasi data Rekayasa perangkat lunak Keamanan system informasi

Num of Rel Doc 20 45 17 10 17 15 16 29 24 21

HASIL DAN PEMBAHASAN Contoh hasil temu kembali (retrieval) berbasis konsep untuk koleksi Nws1009.dok untuk query “pertandingan piala dunia” tersaji seperti dalam Gambar 2. Terlihat jika output dibatasi dengan 150 dokumen metode VSM CptBR memberikan dokumen relevan yang terpanggil adalah 149, sedangkan metode Prob memberikan 146 dokumen relevan.

Gambar 2. Pemrosesan query 2:”pertandingan piala dunia” dengan CptBR

226

Gambar 3. Pemrosesan query 2:”pertandingan piala dunia” dengan Prob Perbandingan CptBR, metode Prob (model PM) dan metode LSI untuk koleksi Nws1009.dok digunakan nilai Cut-Off sebanyak nilai dokumen relevan dalam koleksi sehingga nilai Precision dan Recall akan bernilai sama dan nilai F-measure adalah nilai tersebut. Pada model VSM-CptBR koleksi dikluster dengan jumlah kluster tertentu dengan bobot konsep  tertentu. Dalam hal ini jumlah kluster dan bobot konsep ditentukan secara eksperimental. Dengan jumlah kluster sama dengan jumlah topik dalam koleksi optimasi  untuk koleksi Nws1009.dok adalah sebagai Gambar 4 berikut. Terlihat dari Gambar 4 tersebut bahwa nilai  0,5 keatas akan menyebabkan nilai rerata F-measure tinggi sedangkan untuk  di bawah 0,5 nilai rerata F-measure akan menurun. Ini menunjukkan bahwa bobot konsep akan memperbaiki retrieval jika ditetapkan nilai >0,5.

Rerata F seluruh query

0,95

0,92

0,93 0,93 0,93 0,93 0,93

0,90

0,90 0,85

0,88 0,84 0,82

0,80 0,75 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Beta

Gambar 4. Optimasi  untuk koleksi Nws1009.dok dengan kluster 21 Pada retrieval dengan LSI juga diperlukan optimasi nilai k yang hanya dapat ditentukan dengan eksperimen. Untuk koleksi Nws1009.dok optimasi nilai k diperoleh dengan percobaan pada beberapa nilai k yang hasilnya seperti pada Gambar 5 berikut.

227

Rerata F-measure

1,00 0,80

0,89 0,86 0,84 0,83 0,86 0,81 0,67

0,67

0,60

0,58 0,55

0,40 0,20 -

10

15

21

25

30

40

50

100 150 200

Nilai k

Gambar 5. Optimasi nilai k dalam LSI untuk koleksi Nws1009.dok Perbandingan nilai-nilai F-measure untuk seluruh query adalah sebagai Tabel 7 berikut. Dan rata-rata F-measure untuk semua query disajikan dalam grafik Gambar 5.

No

Tabel 7 Efektifitas temu kembali PM, LSI dan CptBR koleksi Nws1009.dok Query Num of F-PM F-LSI F-CptBr Rel Doc

1

pemberangkatan jamaah haji

38

0,8158

0,4474

0,8421

2

pertandingan piala dunia

183

0,8579

0,9454

0,9454

3

pasar uang dolar

67

0,9851

0,9851

0,9851

4

penumpasan gam aceh

61

0,9672

0,9508

0,9672

5

kerusuhan ambon maluku

51

0,8824

0,8431

0,9608

6

pertandingan tinju tyson lewis

21

1,0000

1,0000

1,0000

7

tki indonesia di malaysia

30

0,7667

0,9667

0,9000

8

penyelesaian kasus tommy suharto

67

0,7612

0,9104

0,9552

9

pertandingan tenis junior

30

0,4000

0,8000

0,9333

10

penyelesiaian kasus bulog akbar tanjung

83

0,8313

0,8916

0,9518

0,8268

0,8740

0,9441

Rata-rata

Tabel 8 Hasil Uji statistik Retrieval CptBR-PM dan CptBR-LSI Nws1009.dok

Dari tabel 8 terlihat bahwa perbedaan metode CptBR dengan metode PM adalah signifikan secara statistik pada alpha 0,044 sedangkan perbedaan metode CptBR dengan LSI tidak berbeda signifikan.

228

Rerata F-measure

Rerata F-measure kol:Nws1009.dok 1,0000 0,9500 0,9000 0,8500 0,8000 0,7500 PM

LSI

CptBR

Metode retrieval

Gambar 5. Perbandingan efektivitas retrieval koleksi Nws1009.dok Pada koleksi Nws1370.dok dengan query sebanyak 25 buah menghasilkan perbandingan nilai F-measure seperti terlihat pada Tabel 9 berikut. Dari pengujian dengan uji t pada uji beda rata-rata antara CptBR dan PM terlihat bahwa perbedaan signifikan terjadi pada taraf signifikansi 0,02 dan untuk perbandingan CptBR dengan LSI perbedaan tidak sgnifikan . Uji beda dapat dicermati pada Tabel 10.

No

Query

Tabel 9 Efektifitas temu kembali PM, LSI dan CptBR koleksi Nws1370.dok Num of Temu kembali (F-measure) Rel Doc IFS LSI CptBR

1

pemberangkatan jamaah haji

40

0,8000

0,8250

0,8250

2

pertandingan piala dunia

183

0,8689

0,9290

0,9235

3

kerusuhan ambon maluku

51

0,8824

0,9020

0,9216

4

penumpasan gam aceh

62

0,9677

0,9839

0,9839

5

tki indonesia di malaysia

30

0,7667

0,7667

0,7667

6

obligor pkps tidak kooperatif

34

0,6765

0,7647

0,7059

7

pasar uang dolar

67

0,9851

0,9851

0,9851

8

kerjasama anti terorisme

83

0,5663

0,7229

0,7470

9

pertandingan tinju tyson lewis

21

1,0000

1,0000

1,0000

10

pertandingan tenis junior

30

0,3333

0,9667

0,9667

11

pertandingan piala thomas

20

0,3500

0,1500

0,3500

12

penyelesaian kasus bulog akbar tanjung

84

0,8333

0,9643

0,9405

13

penyelesaian kasus tommy suharto

67

0,7463

0,9701

0,9701

14

bppn, konglomerat dan tender bca

32

0,6563

0,6875

0,6875

15

12

0,8333

0,8333

0,9167

16

sikap dpr dan pemerintah pada kunjungan pm australia kecelakaan peswat terbang

22

0,8182

0,6364

0,8182

17

korban air bah dan banjir jakarta dan sekitarnya

42

0,9524

0,9762

0,9762

18

presiden ke timtim hadiri pelantikan xanana

35

0,6000

0,5714

0,7143

19

kunjungan megawati ke luar negeri

41

0,5610

0,5366

0,7317

20

dampak kenaikan harga bbm

18

0,6667

0,3333

0,6111

21

program dan krisis nuklir iran

150

0,9933

1,0000

1,0000

22

kunjungan bush ke Indonesia

96

0,8958

0,9375

0,9479

23

kasus dan skandal blbi

53

0,9434

0,9811

0,9057 0,8333 0,9836

24

anggaran pendidikan nasional

36

0,8611

0,9167

25

krisis karena langka minyak tanah

61

0,9508

0,9836

0,7803

0,8130

rata-rata

0,8485

229


Pada koleksi Nws3000.dok dengan query sebanyak 14 buah menghasilkan perbandingan nilai Fmeasure seperti terlihat pada Tabel 11 berikut.

No 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Tabel 11 Efektifitas temu kembali PM, LSI dan CptBR koleksi Nws3000.dok Query PM LSI CptBR 0,700 "hubungan indonesia australia setelah timor timur" 0,200 0,545 "kecelakaan pesawat udara indonesia" 0,273 0,455 0,824 "pemberantasan narkoba" 0,647 0,706 0,225 "situasi banjir jakarta" 0,150 0,125 0,355 "duta besar indonesia" 0,226 0,258 0,344 "nama suami megawati" 0,188 0,125 "pemenang pertandingan piala thomas jenis apapun asal indonesia" 0,125 0,500 0,500 0,556 "nama bos manchester united" 0,259 0,444 0,317 "laporan piala dunia" 0,150 0,167 0,932 "nilai tukar rupiah terhadap dolar as" 0,770 0,905 "aktor aktris calon atau pemenang oscar" 0,667 0,667 "akibat kenaikan harga bbm" 0,579 0,579 0,526 0,822 "persidangan tommy soeharto" 0,711 0,756 0,528 "kunjungan luar negeri megawati" 0,306 0,167 0,518 0,324 0,463 Tabel 12 Hasil Uji statistik Retrieval CptBR-PM dan CptBR-LSI Nws3000.dok

Tabel 12 yang menyajikan uji beda rata-rata F-measure menunjukkn hasil yang konsisten dengan koleksi sebelumnya, yaitu perbedaan antara CptBR dengan PM signifikan sedangkan uji beda antara CptBR dengan LSI tidak berbeda signifikan. Pada koleksi Abs.dok yang memiliki keragaman topik cukup tinggi menyebabkan struktur kluster tidak sebaik koleksi berita. Jika konsep yang diambil disandarkan pada struktur kluster maka bobot konsep yang tepat juga harus dilakukan optimasi. Gambar 6 menunjukkan bahwa pad nilai =0,5 bukan bobot konsep yang tepat, tetapi nilai =0,2 adalah bobot konsep yang mengoptimalkan hasil retrieval berdasarkan rata-rata nilai F-measure. Untuk itu pada koleksi abstrak ini digunakan nilai =0,2 sebagai bobot konsep. Nilai  yang rendah menunjukkan bahwa pemberian bobot konsep yang tinggi akan cenderung menurunkan hasil temu kembali basis kata, sedangakn jika digunakan bobot =0 yang berarti temu kembali hanya berbasis kata saja maka nilai efektivitas tidak optimal. Ini menunjukkan bahwa pada struktur kluster yang jelek sekalipun dengan memilih  yang tepat akan dapat meningkatkan kinerja temu kembali. 230

Rerata F seluruh query

0,53

0,54

0,52

0,52

0,52 0,51

0,50

0,50

0,48 0,47

0,48

0,46 0,45

0,46

0,45

0,44 0,42 0,40 IFS 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Beta

Gambar 6. Optimasi  untuk koleksi Abs.dok dengan kluster 30 Pada koleksi abstrak Abs.dok dengan query sebanyak 10 buah menghasilkan perbandingan nilai F-measure seperti terlihat pada Tabel 13 berikut. Uji statistik pada koleksi ini ditunjukkan pada Tabel 14.

Tabel 13 Efektifitas temu kembali PM, LSI dan CptBR koleksi Nws3000.dok No Query DocRel PM LSI CptBR 1 Aplikasi logika fuzzy 32 0,8438 0,4375 0,6875 2

Sistem informasi

46

0,4130

0,5435

0,5217

3

Jaringan syaraf tiruan

20

0,7000

0,6500

0,7000

4

Pengolahan citra

12

0,6667

0,5833

0,6667

5

Algoritma genetika

18

0,3889

0,3889

0,7222

6

Database

22

0,5000

0,5455

0,5909

7

Sistem pendukung keputusan

21

0,4286

0,5714

0,6667

8

GPS GPRS komunikasi data

34

0,2059

0,1765

0,3235

9

Rekayasa perangkat lunak

29

0,5172

0,5172

0,5517

10

keamanan sistem informasi

18

0,3889

0,3889

0,4444

0,4647

0,5053

0,6032

Average


Dari Tabel 14 uji statistik menunjukkan konsisten dengan tiga koleksi sebelumnya. Metode temu kembali CptBR berbeda signifikan baik dengan LSI maupun dengan metode PM. Menguraikan hasil analisis kualitatif dan/atau kuantitatif dengan penekanan pada jawaban atas permasalahan.

KESIMPULAN Dari uraian sebelumnya dapat disimpulkan bahwa model retrieval berbasis ruang vektor dengan pendekatan konsep dengan melakukan clustering terlebih dahulu mengungguli dua pendekatan lain yang memiliki landasan teori cukup kokoh, yaitu model retrieval pendekatan probabilitas (model probability) dan model retrieval dengan pendekatan transformasi matriks dengan SVD, yakni model LSI. Perbedaan efektivitas ini cukup berbeda secara statistik untuk semua koleksi pada perbandingan kinerja antara model CptBR dengan model PM sedangkan untuk perbandingan CPtBR dengan LSI pada ketiga koleksi berita ternyata tidak signifikan secara statistik tetapi pada koleksi abstrak berbeda secara statistik. 231

DAFTAR PUSTAKA Anung, B.A., 2001, “Pendekatan Multi-dimensi Dokumen dalam Sistem Temu-kembali Informasi Menggunakan Model Spreading Activation”, Thesis S2, Program Studi Ilmu Komputer, Fakultas Ilmu Komputer Universitas Indonesia. Asian, J., H. E. Williams, and S. M. M. Tahaghoghi, 2004, “Tesbed for Indonesian Text Retrieval”, 9th Australian Document Computing Symposiom, Melbourne December, 13 2004. Belew, R., 1989, “Adaptive Information Retrieval”, Proceeding of the Twelfth Annual International ACM SIGIR Concference on Research and Development in Information Retrieval, pages 11-20. Chisholm, E. and T. G. Kolda, 1999, “New Term Weighting Formula for the Vector Space Method in Information Retrieval”, Research Report, Computer Science and Mathematics Division, Oak Ridge National Library, Oak Ridge, TN 3781-6367, March 1999. Croft, W.B. and Harper, D.J., 1979, “Using Probabilistic Models of Document Retrieval without Relevance Information”, Journal of Documentation, 35(4):282-295. Croft, W.B., 1980, “A Model of Cluster Searching based on Classification”, Information System, 5:189-195 Dhillon, S. I., J. Fan, and Y. Guan, 2001, “Efficient Clustering of Very Large Document Collection”, www.citeseer.ist.psu.edu/dhillon01.html Dumais, S.T., Latent Semantic Indexing, :TREC-3 report. In Proceeding of the Third Text Retrieval Conference (TREC-3), pages 219-230 Fox, E.A., 1983, “Extending the Boolean and Vector Space Models of Information Retrieval with P-Norm Queries and Multiple Concept Types”, PhD Thesis, Cornell University. Grossman, D. A. and O. Frieder, 2004, Information Retrieval Algorithms and Heuristics, Springer, 2 edition, 2004.

nd

Hamzah, A, A. Susanto, F. Soesianto, and J.E. Istiyanto, 2007, Concept-Based Information Retrieval for Text Document in Bahasa Indonesia, International Conceference on Instrumentation, Communication, and Information Technology, ICICI2007, Grand Aquila Hotel, ITB-Bandung August 8-9, 2007 Karypis, G. and Han Eui-Hong,2000, “Concept Indexing A Fast Dimensionality Reduction Algorithm with Applications to Document Retrieval and Categorization”, Technical Report TR-00-0016, University of Minnesota. www.cs.umn.edu/karypis Khan,L., R., 2000, “Ontology-Based Information Selection”, PhD Dissertation, Faculty of the Graduate School, University of Southern California. Lucarella, D. and R. Morara, 1991, FIRST: Fuzzy Information Retrieval System, Journal of Informatiuon Science, 17(2):81-91 Mustangimah,1998, “Efektivitas Sistem Temu-Kembali Informasi dan Analisis Bibliomterik: Aplikasi pada Dokumen Bidang Nuklir Berbahasa Indonesia”, Thesis S2, Program Studi Ilmu Komputer, Fakultas Ilmu Komputer Universitas Indonesia Nazief, B., 2000, Development of Computational Linguistic Research: a Challenge for Indonesia”, Computer Science Center, University of Indonesia. Oscan, R. and Y.A. Aslandogan, 2004, “Concept Based Information Access Using Ontologies and Latent Semantic Analysis”, Technical Report CSE-2004-8, Dept. of Computer Science and Engineering, Universitas of Texas at Arlington. Rijsbergen, C.J. van, 1979, Information Retrieval, Infomation Retrieval Group, University of Glasgow, UK.

232

Robertson, S.E. and K.S. Jones, 1976, Relevance Weighting of Search Term, Journal of American Society of Information Science, 27(3):129-146. Robertson, S.E.,1975, “The Probability Ranking Principle in IR”, Journal in Documentation, 33(4):294304. Salton, G., A. Wong, and C.S. Yang, 1975, “A Vector Space Model for Automatic Indexing”, Communication of the ACM, Vol.18. Num.11, Nov 1975. Strehl, A., J. Ghosh, and R. Mooney, 2000, “Impact of Similarity Measures on Web-Page Clustering”, th Proceeding of the Workshop of Artificial Intelligent for Web Search, 17 National Conference on Artificial Intelligence, July 2000. Tala, F. Z., 2004, “A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia”, Master Thesis, Universiteit van Amsterdam, The Netherlands. Tombros, A., 2002, The Effectiveness of Query-Based Hierarchic Clustering of Documents for Information Retrieval, PhD Thesis, Univerity of Glasgow. Turtle H., 1991, Inference Network for Document Retrieval, PhD Thesis, University of Massachusetts, Amhherst. Vega, V. B. , 2001, Information Retrieval for the Indonesian Language, Master's thesis, National University of Singapore. Yang , J.J. and R. Korfhage, 1994, Query Modification Using Genetic Algorithm in Vector Space Models, International Journal of Expert System, 7(2):165-191. Zamir, O.E., 1999, Clustering Web Document : A Phrase-Based Method for Grouping Search Engine Result, PhD. Dissertation, University of Washington. Zeng, J. and Yang, Y., “Information Retrieval Based on Conceptual Network”, Internet Research & Development Center, Institute of Automation, Chinese Academy of Sciences, Beijing 100080, China, 2003

233

ffi.t].."l ISSN : X

Recommend Documents