BEBERAPA UKURAN KESAMAAN ISTILAH MENGGUNAKAN NILAI TRIGRAM
JURUSAN ILMU KOMPUTER PAICULTAS MATEMATIKA DAN ILMU PENGETAMUAN ALAM HNSTITUT PERTANIAN BOGOR BOGOR 2001
ANDINI NURAMI. Beberapa U k u m Kesainaan Istilal~Menggunakan Nilai Trigram (Several Tcr?,rs Sinrilarily Measures Using Trigrar?! Value). Dibinibing ole11 JULIO ADISANTOSO dan MEUTHIA RACHMANIAH. Dalrun pencarian infom~asiterkadang jumlali dokunlen yang teran~bil terlalu sedikit atau terlalu banyak dibandingkan dokumen yang relevan dengan keinginan pencari i~
D e ~ ~ g arasa n ci17ladm7 terirna h i h , h~ perso77bah/ca17 ur71z1l;Bapalc dm1 lhuku sebagai I~arlr,71lr7glahzoi per17iliahm7 Ice-24, 31 Jzlli 2001 fi77flafaga/;[e/al... @)
BEBERAPA UKURAN KESAMAAN ISTILAH MENGGUNAKAN NILAI TRIGRAM
ANDINI NURAJHI
Skripsi Scbagei salah salu syarat urlluk n ~ e ~ ~ ~ p e rgclar oleh Sarjana Ko111puter pada Program Sludi Illnu Konlputer
JURUSAN E M U KOMPUTER FAKULTAS M A T E M A T W DAN lLMU PENGETAEIUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2001
Judul
:
Nama N IM
: :
Bebe~apaUlcurau Icesamaan Istilah Meugguualcau Nilai Trigram AudiuiNwaiui GO6496006
Ir. Meu~thiaRaclunauiah, M.Sc. Pe111bi111bingI1
Tauggal Lulus
:
0 7 SEP 2001
Penulis dilallirkan di Dnlpasar pada tanggal 23 Sepleniber 1978, sebagai n a k pertalna dari dua bersaudara, auk dari pasa~ganMuryadi dan Y a ~ uRoliaya~d. Penulis lulus dari SMA Negeri 3 Denpasar, B d i pada taliu~i1996 dan pada ta:mn yarig sana penulis diteri~iiadi Jumsau 11111~ Kon~pnterFakultas Malenlatika dan Ilniu Pengetahuan Alam, I~lslitutPertalk111 Bogor ~ilelaluiUn&ngan Seleksi Masuk IPB. Pada faliun 1998 pc~iulispemall menjadi anggota Sie Kescjahtenan Hinipu~lanMahasiswa I111iu Komputer. Pada tallun 1999, penulis nienjadi pengajar Pelatihan Pengopensian Kolnputer Tingkat Dasar pada kegiatai Se~rri-QueProject Acodenlic Alnrosphere intpro~~enrenl of Conrpulcr Science DcporInrer71 yang diadakan oleh Junlsai Il~iiuKomputer, Inslitut Pcrlnnian Bogor.
PRAKATA Puji dan syukur peiiulis paijatkm kepada Allall SWT atas segala nlunat dan l~idayali-Nyasel~ii~gga peuulisan karya ilmiali ini dapat diselesaikai. Penelitian yang berjudul Beberapa Ukurau Kesanlaan Istila11 Menggunaka~iNilai Trigra~nini, dilakukan di Laboratoriu~i~ Rise1 Jumsan Il~iiuKomputer sejak bulan Mei sampai Juli 2001. Tcrima kasih tak terl~inggapenulis sa~i~paika~i kepada semua piliak yang telali membantu pe~iyelcsaia~i karya ilmiali ini, antan lain : 1. Bapak, Ibu, Ririn dan s e l u ~ kcluarga h atas segala doa dan duku~iga~u~ya selania pcnulisan k q a illnia11ini. 2.
Bapak Ir. Julio Adisantoso, M. Konlp. dan Ibn Ir. Meutlda Racluoaniali, M.Sc. sebagai p e ~ ~ i b i ~ ~ yang i b i ~ itelah g ~iietiiberikanbimnbingau dan saran selanla pcnulisan karya ilmiah i ~ u .
3.
Ternan-ternan Ridatri, Uyuy, Alex, Uda Ivan, Mas Poer, Mas Arie dan "Giant" tersayang, u~ituk obrolan-obrolan, perhatin &an hari-l~arisang me~iyenangkai.
4.
Kakak-kakak di CDL2000, Ichal, Dani, Uya, Epin, Donic, Suneo, da~iVisluiu, atas kesempatan, bantuan d a ~dukunga~u~ya. i
jurusai Ilmu Kon~puler,k h u s u s ~ ~ Envin, j ~ ~ Panji, Bibie, Anal, Fifi, 5 . Selurul~rekaii mal~asis~va Fin~lai,Wayan, Tell Hanie dan Daiang atas banluan dan pinjarilan bukullyl. Mega, Sinla, Mira, Qwonk, Ija, dan I~ldra,berakit-rakit ke 6. Teman-teman seperjuangan, kl~usus~iya lmlu berenang-renang ke tepian. Penulis menyadari masili banyak kekumigan dalam pcnulisan kava il111ial1 ilu, nanun penlllis 5ci:i;iiap xldal1-11iudahaii kaiya ilmial; iiii dapai ifici~lbcrikaniikdaa:.
Bogor, Aguslus 2001 ,411diniNurai~~i
DAFTAR IS%
DAFTAR TABEL .....................................................................................................
is
DAFTAR GAMBAR .....................................................................................................................
is
DAFTAR LAMPIRAN ................................ .......... ................. ........ .......... .......................
. ............
PENDAHULUA Latar Tujua
is
1 1 1
TINJAUAN PUSTAKA ............... ....... . . .................................................................................... Siste111Temu-kembali Infonnasi .................... ...... ............................................ ................. Peiiibobotan Doku~iien(Docurilo?t iVeig Recall-Precision METODE PENELITIAN Melode ........................ ............. .......... ....................... .......................... ..... ....... .............. ... Pernbe~~tukan tabel kata kuaci (istilah) d a l a i ~basis data Pe~ier~tuan input, output, dan alur data sister11 teniu-kern ...............................
HASIL DAN PEMBAHASAN Karakterislik Do Kesesi~aianKata
.
6
6 7 8
KESIMPULAN DAN SARAN
12 12 12
DAFTAR PUSTAKA ....................................................................................................................
12
DAFTAR TABEL
1. Co~ltoh(I) pe~iyiiiipanankata kunci dalaui basis daia pada label Teniis
4
2.
Co~ltoh(2) penyinipanan h t a kunci dalmn basis data pada tabel Terms .......................... ....
3.
Interpretasi liasil ~iilaikesa~uaallalltan q u e v dan kata kuilci dari keempat ukura~ikesa~iiaa~i ... 7
4
DAFTAR GAMBAR
1. Ko~isepTemu-ke~ubaliInfor~liasiMe~iurutSalton (1989 2.
2
Himpunai Dokumen 2 Bud1 Istilal
2
3. Diagram Penyinlpanan Kata Kunci dalam Basis dal: 4.
D i a g n n ~Alur Kerja Sistem Te~iu-keillbaliInfor~iiasiSecara Umum ........ .....
5.
Persentase Junllah Bentuk Kata Kunci Dokumen &lam Basis Data
4
.......... . ......
4 7
0.1-0.6 .................................... 6. Rata-rata Junllah Dokumen yang Tennlbil pada Nilai A~uiba~lg
S
7.
Graiik Perbandingan Recnll-Precisior7 untuk S(q,t)
9
8.
Grafik Perba~dinganRecall-Precisionuntuk SI(q,l)
10
9.
G d ~ Perba~dinga~Recall-Precisior7 k unluk Sl(q,t)
10 11
10. Grafik Perbandingan Recall-Precision untuk $(q,t) I I. Matriks Efektivitas Temu-ken~baliSetiap Ukuran Kzsamaan pada Nilawnbang
0.1-0.6 .........
12. Malriks Perbandingail Rata-nta Jun Relevari pada Nilai Anlb;u~g0.14.6
11 11
DAFTAR LAMPIRAN
1. Tabel Illput Query Percobaa
14
Nilai ukurau kesaivaan > 0 antan qtrcry air dengall istipall-istilah dalam basis data diun~t berdasarkan lulai ukunn kesamaa~mnya
17
j
Nilai 1&11r=1 kesalllaa~l>0 antara qver berdasarka~nilai u k u r t kesama;uu~ya
15
4.
Nilai &"ran kesall~aan> 0 antara quer berdasarkat~~ u l aukuran i kesamaan11)'a
20
.i Nilai ukurai~kesainaan > 0 alllam quo berdasarka~iiiilai ukunn kcsai~iaami)'a
23
2.
6.
Nilai ,lkl1ran kesamaan > 0 antara query mctotlc dengan islilalristilali dala~iibasis data diunit bcrdasarkaii uilai ukunn kcsaiiiaa~u~ya
2-1
7. Nilai ukuran kesanlaan > 0 anfmq u e y model dengan istilab-istilah dalani basis dafa diurut berdasarkan nilai ukuran kesamaaru~ya.................................................................................... 8. Nilai ukuran kesanaan > 0 antara query stntistika dengan istilah-istilah dalan basis data diurut . . berdasarkan mlat u k u m kesanwannya .................................................................................
9. Nilai ukuran kesauaan > 0 antara query regrcsi dengan istilall-istilal~dalan~basis data diumt berdasarkal nilai ukuran kesanlaamya ................................................................................. 10. Nilai ukuran kesamaa~> 0 antan query program dengall istilah-istilah dalam basis data dillrut berdasarkan nilai ukuran kesa~naannya.................................................................................... I I. Nilai ukuran kesanaan > 0 antam query inform:~sidengan istilalristilali &lam basis data diun~t berdasarkan ~ l aukuran i kesanlaamya ..................... . ............................................................ 12. Tabel Jumlah Dokuinen yang Teran~bilpada Senlua Ukuran Kesanlaan untuk Nilai A n ~ b a ~ (NA) g 0.1-0.6 .......................................................................................... 13. Tabel Rata-rata Nilai Recall-precision untuk Nilai A~nbang(NA) 0.1-0.6 pa& Ukuran Kesa~uaanBam (S(q,t)) .......................................................................................................... 14. Tabel Rata-rata Nilai Recall-precision untuk Nilai A ~ n b a l g(NA) 0.1-0.6 pa& Slkurall ..................................................................... Kesa~naanJaccard (S,(q,t)) ............ ....
15. Tabel Rata-rata NilaiRecall-precision untuk Nilai Atnbang (NA) 0.1-0.6 pada Ukural Kesamaan Dice (S2(q,t)) ......................................................................................................... 16. Tabel Rata-rata NilaiRecall-precisio~~ untuk Nilai Anbang (NA) 0.1-0.6 pada Ukuran Kesaniaan Cosine (S3(q,t))......................................................................................................
PENDAHULUAN Lstar Belnknng Sistem temu-kembali inforniasi meli~trntSalton (1989) adalah sistenl yalig menuoses da11 ~iiengolali kuliipula~ dokunien da~i pennintaati infortnasi, ke~nudian mengidentifikasi dan menganlbil dokumen yang sesuai dehgan qzrery. Siste~n ini &pat memudalhi penyimpman. pengolaha1 da11 pengaksesan infonnasi secara efektif hi efisien. Penganibilan dokumendoh~melitertelitu tergxitung pada kesamaan antara dokumen tersebut dengal query, yang diukur den@i menibandinghi nilai atribut teltentu dari keduanya. Dala~iipencariau inforn~asi t e r k a h g timbul masalah antara laill jumlah dokulnen yang terambil terlalu sedikit atau terlalu banyak dibandingkan dengai sekumpulan dokumen yang relevan dengan keinginai pencari i~lforniasi. Selain itu isi dokunien yang tera~iibil tidak sesuai deng;ui keinginan pencari infonnasi (Magdalena, 1996; Kwok, 1989 dalam Adisantoso, 1997). Masalali tersebut tinlbul karena pencari i~lfoniiasi meniberikan bentuk query ben~paistilah atau kata hnici dari dokumen yang tidak tepat atau terjadi kesalalial &lam penuilisan query. Untuk mengatasi lnasalali tersebut dilalcl~kari penibandingai kesaniaati string cslrii7g si~nilari@). Metode y211g bac;%zk digunakai acklali metode 1:gram yang tidak tergantu~igpada bal~asatertentu. Metode ini hatiya membaidi~lgkan11un1f-huruf&ri kata-kata ta~ipa memperhatikan bahasa yang digi~nakrui. Jika dua buah string dibandinghi, niaka aka1 dilututig kunlpula~~ 11-gralii dari kedua kata tersebut. Semakin banyak 17-gram yalig muncul menunjukhi tingkat kesaniaan string yang tin& (Pfeifer el a/., 1996). Metode it-gran yang m e ~ n b e r i h ihasil terbaik dalam petiganibilali kata yang lnirip adalah digram dan triga111 (Salton, 1989 hi Zaniora ei al., 1981 dola117Pfeifer rl a/., 1996). Pada penelitian iru akan digonalan metode trigram karena secara umom &lam bahasa Indonesia jumlah Iiumf suato kata atau suku kata yang me~rnnju!&ntingkat kesanaan string yang tin& adalah ti@. Tingkat kesruiiaan string i ~ udiliitotig d e n 9 1 ~iienjgu~iakat~ ukuwi kesamaan istilah. Kesamaui istilah i ~ um i p t berguna &lam temu-kembali inforniasl. Menunlt Kim & Choi (1999). terdapar berbaga~macam ukuran kesatnaan yang disarankan utitnk meningkatkan efektivitas temu-kembali infortiiasi diantaranya addali Jaccard, Dice dan
Cosine. Selania ini pengukuran kesaniaan dilakuhi berdasarkan jumlah suatu istilall dalani dokuniel~ da~ike~inidia~idilakuhi penymtan dokunien berdasarkan nilai kesamamiya. Metode 17-gratii beluni pemah digunakiili sebagai dasar perl~itungaiukuran kesamaan dillma dilakukan pengukuran kesaniaati a~~tltara istilali query daIi kata kunci dari dohnnen. Tujunn Karya ilmiah i ~ ubertujuan untuk menelaah nietode trigam sebagai dasar perlutu~iganu h ~ r a n kesamaati &lam sisteln temu-kembali inforniasi.
TINJAUAN PUSTAKA Sistem temu-Icembnli informasi Mellllmt Fmkes (1992) sistem temu-kenibali illforniasi berbeda dengal sisteni manajemen basis data. Perbedaan iilii terletak pada data obyek dan inforlnasi yang d i b e r h i . Data obyek yalig digunakan dalam sisteni temu-ke~nbaliinfor~nasiadalah dokumen-doku~nen yang berbasis teks sedruigkai yang digunakan oleh sistelii ma~ajemenbasis data adalali record-record yang lebih terstmktor. hlforniasi yang dihasilkal~ ole11 sisteln teniu-kelnbali itlfor~nasi bersifat probabilistik, yaitu dokuliie~iyang teranlbil tidak selalu sesuai denjgi yang diinginkan pencari inforniasi. Dapat terjadi beberapa doicumen yang teranibil tidak relevan atau dokumen yang dibutulkan tidak teranbil. Hal ini berbeda dengan hasil query terhadap basis data yang bersifat deterniinistik (Frakes, 1992). Sistem temu-kembali itlforniasi terbagi merijadi t i p mang lingkup (Salton, 1979 claIai?7 Adisantoso, 1997), yaitu : (1) database reb.ieval yang ~iienuoses berkas data dasar sederhana dengall mengg~~naka~i sejumlah atribut yag sudali didefinisikan sebagai ciri dari setiap recoro'; (2) refirelice relrieval dimana record data berupa dokunie~ib u h ~junial, , niajalall atau ballan pustaka lai~niya; dan (3) fact renieval y a ~ gnieniroses inforniasi dengan jenis karakteristiic record iebili konipleks. Secara prinsip, lnenumt Salt011 (1989) penpnibilan dolumeli nntok memberikan inforliiasi yang diminta lianis berdasarkan pada penentuan kesamaati (shnilarilie,~)antara query da11 dolannen yang disimpati, dan penganibilan dolumen tersebut menu~ijukkanbaliwa dokunien
yang teraliibil relatif sama dengan qzl.ry yalig d i b e r i h i (Gambar 1).
Ukuran Kesnmaan (Sintilari* Measrrres) Misalnya diketaliui suatu hinipuniui dokumen D dengal ukurai N, yalig memiliki istilali x sebaliyak df,, drui istilah y sebanyak df, serta yalig metiiiliki istilah x drui y sebaliyak df,, yang menlpakai ukuran dari D, n Dy. D, drui Dybertumt-tumt menlpahi Iiimnpunrui doku~iienyatig mempu~iyai istilali x drui istilah y (Galiibar 2).
Gambar 1. Konsep temu-kembali illfor~iiasi me~iunltSalton (1989)
.-
Metode rl-grnm Pe~ielitualirelevaiisi antara query dan dokunien yalig disimpai dilakuhi dengan mengllitung ~iilai Gallbar 2. Himpunan dokumen 2 buah istilah kesamaan ruitara istilah yang diliiilita pelicari inforrnasi (queiy) detigan istilali-istilali dalarn Meliurut Kim & Choi (1999), ukuran kesamaan doku~iietiyalig tersinipali dalalii basis data. antara istilah x drui y terdiri dari Jaccard (S,), Dice Metode 11-graii bbanyak digunakan sebagi (Sz) dan Cosine (S3) dimaia : pendekatan kesamaan-sh-ing (shi~ig-.sif?ii/ari~y) yalig iiienglutulig llilai kesamaai aatara istilali yalig di~ni~ita pelsari informasi deligal istilah yalig berada pada basis data. Istilah-istilali dala~iibasis data yang ~iieliipunyainilai kesamai yang tinggi dengal query a k a ~ditaiipilhi ~ ulituk menentokan istilali-istilah yang mu~igkinsesuai dengall yalig diinginkan pe~icari informasi (Freund & Willet, 1982 rlali71i1Eluiiek~ioglue/a/.,2000). Menumt Eluiiekqioglu el a/. (2000), 11-gra~ii adalali kuiiipulati dari n buah karakter ben~rutan yalig merupdai bagian dari ssuatu kata. Tijuali utana dari ~iietodeii-pmi iiii adalah kata-kata yang tiiirip aka1 mempiuiyai bagian-bagian hasil 11gra~iiyang senlpa. Nilai 11 yarig ballyak digunaltan pada 11-gram adalah 2 atau 3 yang biasa disebut digralii atau trigam. Contoli digrani dan trigram ulituk kata KOMPUTER, krtun~t-tumtadalali $K, Ketiga uktlrai kesa~iiaaiilii didasarkall pada KO, OM, MP, PU,UT,TE, ER, R$ (digram) dan vektor bi~iari da11 mempuliyai nilai kesaiiiaai $$K, $KO, KOhf, OMP, MPU, PUT, UTE, TER, istilah a~itara0 da11 1 (Salton, 1989 dala111Kin1 & ER$, R$$ (trigram). Tanda '$' liiem~lijukkanbagian Choi, 1999). Kelebihan dari ukuran-ukuran tamballan, maka junilali digan1 hi trigram secara kesamaan tersebut adalah perhituiigamiya bertun~t-ton~tadalah, n-1 (digra~ii) dan 11+2 sederhana. Telah ballyak sistem yang liieiig(trigram) dari suatu kata yang terdiri &ri 17 buah gunakai salali satu ukturai kesamaan di atas &lam karakter. Peniberiai bagiai tambahai ini untok meiigevaluasi kesamaai query-dokulnen. Untok menekankau k e s a i i a i 11-gali1 pada awal dan akliir p e r h i t u ~ i ~ nkesamaan istilalt-istilah. olil~ran suato kata (Pfeifer el a/., 1996). kesamaan Jaccard (S1) pernali digunakali pada tesaurus fi~zzy(Miyamoto, 1990; Oga\va el nl., 1991 clnla~~iKiln & Choi, 1999). Sedangltan
ukurrui kesamaai Dice (Sz) d a Cosine ~ ~ (S3) pen~ali digunakai pada susunan tesaurus autolnatis (Frakes & Yates, 1992 dalatrr Kim & Choi, 1999)
METODE PENELITiAN
Data yalig digunakau dalaln penelitian i ~ u adalali d o k u ~ ~ ~basil e l i penelitian pada F A ~ l t a s Pernbobotnn Dokumel~(Doc~rnterrfWeiglitirig) MIPA tal~un 2000. Dokumen yalig diguliaka~ Menun~tSalt011 (1989) pe~iibobota~i dokumen berjumlal~ 137 dokumen yang terdiri dari 23 iui metiiudal~kaupengurutau dokumen 111ulai bobot dokumen GFM, 15 dohmen BIO, 7 doh~menFIS, terbesar sanpai bobot terkecil (decreasir?g). 13 doku~iieli KOM, 25 dohunen KIM, 20 Semakin kecil bobot dokumen, menulijukkau dokumen MAT, &I 31 doh~menSTK. Setiap dokumeri tersebut semakin tidak relevau dengall dokumen memponyai atribut yang digutiakan qziery. Perliit~~ligat~ bobot doku~iiel~ untuk q u e y sebagai ciri dari dokumen, yaitu ID dokumen, sederhaia &pat didefilusihi sebagai p e ~ i j u n ~ l &judul ~ ~ penelitill dalam baliasa Indonesia &a11 bobot semua 'istila11 dalaui dokunieu yang sesuai Ingris, nama peuulis, lenibaga, kata-kata kunci d e n p i query. Sedaigkan perhitu~igrui bobot da~iedisi. Selnua dokuliie~itersebut telah tersimpan dokumen untuk query boolean dilakukai pada tabel Penelitiai dalan basis data. berdasarhi ekspresi boolea11 yang diberikan. Selaili itu juga terdapat pembobotan dokt~~iie~iMetode nod el peluang yang melakukan pe~iibedaa~i yang Penelitian ilu dilakuhi ~nelalui beberapa jelas antara istilal~yalig relevall dengal istila11 yaug tahap, yaitu : tidak relevau dari suatu dokumen. tabel kata kunci (istilab) dalani 1. Penibentuka~~ basis data. Recnll-Precision 2. Penentuan iinput, output, dan alur data sistem Menun~tSalt011 (1989) recall-precisioi? adalah teuru-kembali infor~iiasi. tnetode yalig dipinah1 unh~k menguhr 3. Penentoan perhitungal ~iilaikesamaali istilah efektivitas teniu-kenbali. hi bobot dokumen. Recall ii~erupakanukumi bauyaknya dokumen 3. Percobaan. relevall yalig tera~ibildari kumpuliui dokumen 5. Analisis. relevall pada saat query diterapkan. Pembentuknn tnbel kntn kuuci (istilall) dnlnm Jumldn dakumen relevan yang terambil basis data = Iumlzh seluiuh dokomen iolo.jan Wam basis ds:a Pada basis data dibuat tabel baru, disebut tabel Tenns, untuk menyimpan kata-kata kunci. Tabel Precisian merupalan ukuran relevalisi dari ini menyimpan nomor dokt~men(No), ID dokumen doktunien yang teran~bil. I>recision menyatakan (ID), kata h ~ n c i(Kunci) dau frekueusi (freq) dari perba~dingan aitara jumlali dokumen yang kata kunci dalam suatu dokumen. Pe~iyimpaian teran~bildau relevax denjpi keseluruhaI1 dokumen kata kunci ke dala~utabel Tenns d i l a k u h ~secara yang reran~bil. manual. Kata kunci suatu dokumen yaug terdiri dari beberapa kata aka1 mengalani pemengalan kata, lalu disimpan satu per satu ke dalam tabel. Apabila kata kunci dokumen nien~pakan kata majemuk, maka kata rersebut tidak mengaland Untok rlriery yang terperinci, nilai /~reci.sio~? akan p e r n e ~ i ~ l kata. a n Kata lnajemok adalah gabutiyn tin& sebab semua dokumen yang ditemo- dua buah kata dasar atau lebih yang mengandung kembalikan relevan. Namon di lain pihak iulai suato pengeltian ban^. La~~glaIlwh-lan~I~ recall aka11rendall karena lianya sedikit dolct~mel~ penyimpanxi kata ku~icidalam basis data pada yalig tera~i~bil.Apabila qziery tidak terperinci, tabel i ~ udapat dilihat pa& Gauibar 3. maka iulai recall a b i tinggi karena banyaluiya dolumen yalig terambil, sedangkan nilai precisiori rendah.
dokumen yang digunakai sebagai dasar pencarian dokt~menyang relevai d e n p i kei~igina~i pelicari i~lfor~iiasi. Kata-kata kunci tersebut aka1 dilulung tulai kesalilaauiya deligan istilah query yalig d i b e r i h pelicari illforniasi. Kemudian aka11 diliitung bobot doku~iien berdasarkan llilai kesamwi yalig diperoleli.
k3Vl kuud sum label Pmeliliu
Ga~iibar 3.
Diagram penyimpanai kata kunci dalam basis data
Colitoh kata h n c i yang b u k n kata majemuk terdapat pada ID dokumen KOM01007 yaitu aialisis profitabilitas, alalisis produk, bisrus balk', liiaka pada tabel Teniis kata-kata kunci tersebut aka11tersimpai seperti pada Tabel 1.
Penentuan input, output, dan nlur data sistern temo-ltembali iofoi.mnsi 11iput dari sistelii i ~ uadalali query denga11 ~iie~iiberika~i satu kata istilali yalig niempakan kata kulici dari suatu dokumen yalig terdapat dalam basis data. Setelah itu, dilakukan liietode trigraii terliadap istilali query dax kata ki~licikemudian diliitung ~iilaikesaiiwuiya. La~igkaliselalijutnya adalah pengliitunpi bobot dokumen dan outpiltliya adalali undai dokt~men berdasarkan bobot dokumen secara d ~ w e a s i r ~ g .Un~tan dokumen dari lulai bobot dokutiieti terbesar hi~igga terkecil me~iu~ijukkatidokullieli yaug teraiibil paling dulu adalah dokume~i yang memponyai tingkat relevansi yang tinggi deligall dokumen yang diingi~ikaipelicari illfoniiasi. Diagraii slur kerja sistetii &pat dililiat pada Gaiibar 4.
Tabel 1. Contoli (I) pe~iyimpanankata hlici dalalii basis data pada tabel Teniis No
II
ID Tln\mlnn"
Kulici
I n
....r:.:.
II
Freq ?
Contoli kata kt111ciyalig kata majemuk terdapat pada ID dokuriieli KOMOlOll yaitu 'cross sellin& sistem back end, sistem pakar', Illaka pada tabel Teniis kata-kata ktrnci tersebut alan tersimpan seperti pada Tabel 2.
i'~w&iluugm
Niloi Lwrnoa idilh
Tabel 2. Contoli ( 2 ) peliyimpa~iankata Icunci dalam basis data pada tabel Teniis
4. Diagaii alor kerja sistem I
Pada penelitian ilu data yang d i g u n a h ~adalal~ Jaccard meiijadi SI(q,t), Dice me~ijadiS2(q,t) dali data dokumen hi kata kunci yarig tersimpan Cosine menjadi S3(q,t). D, adalah lumpuna~ dalani tabel-tabel pada basis data. Tabel yang trigram dari istilah q u e v sejumlah df, dai D, me~iyin~pai kata-kata kunci, disebut tabel Ternls, adalali himpunai trigrani dari kata kunci sejumlah digunakan sebagai dasar pencaria~suatu dokun~en. df,. df,, adalah jumlah trigrani yalig sania-sa~la Pada Ganibar 4 terdapat tip taliap peliuosesaii di~uulikiole11 istilali query hi kata kunci yang data setelah petilasuh~ istilah query yaitu men~pak;uiukurai dari D, nD, . pertama, istilal~query tersebut hi kata-kata kunci Selain mengunakan t i p ukuran kesaniaali dala~ritabel Ter111saka11dibuat trigraiiu~ya.Setelah pada persrunaalt (I), (2), d a i (3), nilai kesanaru~ it11 'aka1 dilutung iulai kesamaai istilah q u e v juga dihitung dengan tuenWmak;ui ukurali terlladap kata-kata kunci yang terdapat pada tabel kesamam yang baru yaitu persaillaan (4). Teniis niengun&~ ukuraii kesatnaan berdasarhi nilai trigram. Kata kunci yang memiliki ~ulaikesa~i~aan lebil~dari no1 hi hasil perhitungan nilai kesanaannya disimpan ke dalan array berdasarhi ID dokumennya. TTiap teraklur adalali n~e~~glutung b b o t dok~imenberdasarkan Sama seperti ketiga lilukuwi kesamaan seklumnya, ~ulai-lulaikesammi yang din~ilikisuatlt dolaimen ukuran kesamaai bam itu diboat berdasarkan yang telali t e r s i m p ~ dalan~ array. Hasil vektor binari clan mempuiiyai nilai kesamaai perhitunmi bobot doku~nen &ti ID doh~men istilah antara 0 h~ 1. Hasil u k u r a ~kesamaai pada disiiu~pa~ d a l a i ~array, kemudian aka11 d i u m t h i persacnal (4) akan dibandingkan dengat1 secara desce17diiigb e r d a s a h i bobot dokumetuiya. persamaan (I), (2), d a (3). ~ Oiitptit tenin-keli~bali inforniasi ditampilkan Untuk setiap u h r a n kesamaa~, setelah b e r d a s a r h ~ unitan dokume~i mulai dari bobot didapatkan nilai kesanim~ istilah dari selumh d o k ~ ~ n eterbesar. n Ketewigai mengeienai dokimen istilah pada suatit dokumen, maka bobot suatu yang ditampilhi adalal~judrtl d o k u n ~ eyang ~~ dokumen akan dilutung dengal mengun&l dianbil dari tabel Penelitial. Selain itu juga persanaan (5). Dalaii 1131 iiii jreq adalali dita~t~pilkan kata-kata kur~cidari doklimen tersebut banyaknya suatu istilah dari dokuli~entertentu (4 yang ~lie~iulikiililai kesamaau, lebih dari 1101 yang n~en~punyai nilai k e s a l i a i istilal~lebih besar beserta nilainya yang terdapat dalani array. ID dari 1101 &I S,(gt) adalal~nilai k e s a m a ~istilah d~hcumen mempkau key yang mengl~i!bi~ngka~lebil~besar h i no1 dari ukurai kesamaan i. Nilai data yang terdapat pada tabel dala111 basis data So(q,t) pada perhituiigan bobot dokumen dengiu data yang tersi~iipidalam array. Data i~~ertlpakaii nilai S(q,t) pada persamaan (4). metigenai dokunie~~ clan kata kunci disimpan pada tabel bersifat tetap @ernnnen) karena pada saat niel&~ka~teniu-ken~baliinfonuasi data tidak aka11 n~engalaliu pembalm~. Data bobot dokunien disimpan &lam array karena sistein temu-kembali inforn~asi ini ben~paweb brobvser yang diakses ole11 ~n~il/ii~.ser s e l ~ i n g gdata yaiig diliasilka~~ alan Nilai bobot dokumen ini mempakan l~asilrataberubah-itbali tergantung dengat1 query yang rata jumlali nilai ukuran kesamaan lebih besar dari diberikan. 1101pada suatu kata kunci dalan~dolcun~entertento. Persanlaan ( 5 ) ini dibuat berdasarkan perl~itungan P e ~ l e ~ ~ t upe1.11itungnn nr~ nilni Icesn~nnnn istilnh bobot d o k ~ r n e i untuk ~ query sederliana sesuai dnii bobot dolcume~~ d e n y n input dari sistenl pada penelitian illi. Pada kta Pa& peiieliti~lilc nilai kesamaal Intnci d e n y n qnetv aka1 diliitung dengan perhitunyn bobot dokunien untuk quay nienggtnakan ukuran kesamaan laccard, Dice, dan sederliana, bobot dokumen didapat dari jlunlah Cosine . Sesltai dengan tujuan penelitian i l i nlaka Ilasil kali antara nilai kesan~aandengal frekuensi okuran kesamaa~tersebut disesttaikan berdasarkall kata kunci. Nanlon pa& persamaal (5) metode trigram. pend~tullsal1 inlai kesaniaail perllitonga~lbobot dokumen ini mengalami sedikit istila[l dal melljadi p e l l g ~ ~ t l l ~ g nilai al perubahan yaitu pet~jnn~lahnliasil kali nilai kesamaan (S) antara istila11query (q) deny11istila11 kesamaan d e n y n frekuensi kata lcunci dibasi ( l e f l I I S (1)) dalalll tabel kata kiln& ~ ~ I I & Ijitinlah II freki~ensi kata kunci. Hal ini
dilakukan u~itukliielidapatkan nilai bobot d o h m e n alitara 0 d a i 1. Nilai bobot dokunieti 1 ~iieliu~ijukkan baliwa dokumen tersebut me~iiiliki kata kunci yalig saiia dengan query. Senlakill besar nilai bobot dokumen menulijukkai bahwa dokumen tersebut semakin relevan d e n m i keit~ginanperlcari irtforntasi.
ulituk nilai recall 0.1 adalah perbaidingai ba~iyakuyadokumen relevan yalig temliibil dari ju~nlali d o k u l i ~ etersebut. ~~ Setelah itu, dilutu~ig rata-rata precision untuk setiap recall dari mnasiligniasi~ig ~ulai aiibaig pada keeli~pat ukurai kesa~iiai.
Aaalisis Pada penelitian i ~ l iaka11 dianalisis pengamli Percoban11 dari istilall-istilah dari suatu doku~iieli yalig Pada percobaan ilu diwnakan 10 input query (Lampirai 1). Query-query yalig digunak;ui digi~nakai sebagai kata ku~ici dari d o h m e n merupdai kata kunci d a i dokumen yalig terdapat tersebut terhadap hasil perliitun&vi lulai pada tabel Penelitiai dan dipilili berdasarkai kesamaaan istilah. Selain itu juga akan dialialisis ba~iyaknya dokumen yalig liie~iiiliki kata hliici lulai kesamaai yang didapat dari keempat ukuran tersebut. D e n w i cara illi output yang diperoleli kesamaan yang dicobakaii, tenllama nilai adalah dokumen-doku~iien relevan. Dokumen- k e s a m a ~ istilah yalig didapat dari ukuran (4)). Kemudial doh~menrelevan yang diniaksiid pada percobaai kesamaan yarig baru (persaii~aa~i efektivitas temu-kembali sisteni ini menolut ini adalah dokumen yalig memiliki kata kunci yang saliia dengall query. Kecuali pada Q9 dali Q10 ukurai kesaiiiaai tertelitu pada tiap-tiap lulai terdapat dokumen yatig nie~iipu~iyaikata kunci ambaig a h 1 diaialisis berdasarkai ~ulairecallberbeda dengai query namuo relevan den@i kata precisio17 yalig didapat dari hasil percobaati. kunci qz(ery. Misalkai pada Q9, query yang diberikan adalali kata 'prograii' d a i doln111lellyalig diaiggap releva11 selaili dokunien yalig memiliki IIASU, DAN PEMBAIXASAN kata kulici 'prograii' adalali dokumen yang ~i~emiliki kata kunci ' p r o g a i i ~ i u ~ ~ gatau ' Karnltteristili Doliumen 'pe~iuograma?.Sedangkan pada Q10 d e n m i query Doku~iie~i yang digi~~iakai dala~npercobaai iiii 'i~tfor~liasi', terdapat dokunie~ideng;ui kata huici adalah doku~iie~ipenelitian pada Fah~ltas 'i~lformation'@allpimi 1). Matematika da~iIlliiu Pengetal~um~AIaln, IPB Nilai kesamarui antara kata-kata kunci dari taliun 2000. Setiap dokumen tersebut mempunyai dokuliie~ld a i m basis dara dengal senlua query istilah-ist~lah yang merupakai kata kunci yang dihitung dengan mengu~iakan keempat ukuran sesuai dengan isi dokumen tersebut. Setiap kesamaan. Kemudian setelah dilutong iiilai bobot dokumen rnempu~iyai jumlah istilah yalig tidak dokumen, output dita~iipilka~imenunlt liilai sama. Istilali-istilali tersebut terdiri dari sat11 a~ilbangbobot doh~men dari 0.1 sampai 0.6. sampai eltipat br~alikata. Kata-kata dalaii istila11 Penetapall ~ulaiambang yang digu~iakan dari 0.1 tersebut ada yang me~igc~nakan bal~asaI~ldo~iesia, kareua diammsikai baliwa dokulile~~yalig Inggris atau Latiti. Belltllk kata yang digt111akan me~iipi~nyainilai bobot dibawah 0.1 adalah adalah kata dasar, kata berimbuhai, kata majemuk, dokumen yang saigat tidak relevall deligan sitigkatan, dan la~iiba~ig unsnr kimia. Setiap istilah keinginn pencari infor~nasi.Sedangkin penetapan dari masing-~iiasingdoku~iie~i kemudian disimpan nilai anibang sampai 0.6 karelia diasumsikan ~iiolai satu per satu kata pada tabel Terliis dala~iibasis nilai aiibang 0.6 tersebut dokumeli yallg teralubil data. Ju~~llali kata yaug tersimpan adalah seba~iyak semuaiya relevan. 622 kata yalig me~ijadikata h ~ n c ibagi doh~menTahap sela~ijut~iyaadalah mengliitong nilai dokumen yang terdapat dalan basis data. Bentuk recall-precisioil dari setiap query pada ~liasi~ig- kata terbatiyak adalah belituk kata dasar dall liiasilig nilai ambang untuk keellipat i~kuratl sela~ijutnya adalah kata berimbuhan, kata kesamaan berdasarkan jumlah dokumen yang majemuk, singkatan dan lambang onsur kimia. Hal terambil. Nilai recall yang digt~nakru~ adalah 0.1-1 ini dapat dililiat pada diagam lingkar persentase yaitu nieni~lijukkanjumlah bagian dokumen dari jumlali beutuk lata kunci (Ganibar 5 ) . Kata-kata selunlh dolal~iienyang teranibil uotuk perliitonga~~ tersebut tidak ~uengala~iu pen~balian,tetap sesilai nilai preci.sui~. ~tiisalnya unti~k ~iilai recail 0.1 den&zi bentok kata awalnya, seliingga suato kata berani jumlah dokume~~ yang digonakan untuk yang berarti sama dapat berbentok kata dasar dan perliiti~ii&i~iuilai preci.sioi1 adalah 10 % dari beri~iibulian atau dalatii dua baliasa. Contoliliya seluruh dokunlen yang tera~iibil. Nilai p.cci.soi7
kata 'progran' d a l a i i basis data juga tersimpan kata 'pemrogramai' da11'progaiuiiing'. Bentilk d a ~ pi a i j a i g kata ( s h i l ? ~Iengtlt) istilah ini meiiipengarulu p e r l u t u n p uhmi k e s a m a a i altars query d e ~ i g aistilah t~ d a l n basis ~ data. Setiap kata baik itu query maupun istilah dalam basis data, setelall dilakukm metode t r i g a l n a k a 1 mempunyai junllah t r i g a m bertun~t-h:n:t df, d a ~ df,. Masing-:-masing sebanyak, r1+2 d i ~ i i a i a n merupakan paijaig dari kata tersebut. Kesesuninli K n t a Suatu kata dalani basis data a k a 1 memiliki enlpat buali lulai kesanimi yang berbeda-be& berdasarkan p e r l u t u n g a ~elupat u k u r a ~k e s a m a a i yalig diberikan. Pada L a ~ i i p i m 2i sanipai 11 dapat dilihat hasil per1iitu:igan ukuran kesamaan illput query dengan kata-kata kunci dalam basis data yaug k m i l a i lebili besar dari nol.
I
Junlah bentuk kata kunci dokunen
G a n ~ b a r5 . Persentase jumlah beiituk kata ktlnci dokumen dalam basis data
T a k l 3. Iuterpretasi hasil ~iilaik e s a m a m a i t a r a query d a n kata k u t ~ cdari i keelupat ukuran kesamaan Interpretasi terliadap ~ u l akesamaan i dari keempat u k u r a ~kesamaan i G a m p i r a ~2-1 1) Terdapat pola perubahannilai kesamaan yang sama pada keetnpat ukuran. Air Terdapat pola perubalianlulai yang berbeda pada S(q,t) uituk kata-kata yg df,-tiya sama i dan kata yg df,-nya 8, 15, 19 atau dengan atau lebih kecil dari df, d y ~ n i l adf,,=l Hujan kelipatan &mi df,dgi nilai &,=latau 2. Pada S3(q,t) perbedaa~ipola terlihat pada kata d g df,=19 ~ d y i df,,=2. Sl(q.t) d m S2(q,t) tnempunyai pola pembahalinilai yang sama. Terdapat pola peruballan~lilaiyang berbeda pada S(q,t) uituk kata-kata yang df,-nya hiaiisis I 10 sama dencan atau lebii kecil dari df. d-m ~iilaidf,,=l. S3(cl,t), S,(q,t), dan Sl(q,t) nien~p~u~yai pola penlbnl~nn~ulaiY:IIIS sn111n. Tcrdapnr poln perobnllno nil:ti yollg berbdn pnda S(q,t) tu~hll;kntn ynng df-nya snlna den2:tn : ~ I ; ~ Licbi11 I kcc~l~l;trielfl Sj(q,t), Sl[c,,t,, d m S>(q,r)~neotpt~nya~ 1101:spcruh111:111 Slnenl S nllai yallS sanln. -.-. -. Terdap:it poln p e ~ u b a l ~nilni : ~ n yaog burbeda pndo S(q,t) turluk k n t ~ynng dC-nyn s:tlnn dengan ntlu lebil~kecil d q r i df,. SJ(q.t). S,(q.t), dn11S2(q.t)tneo~pu~yni polo perubnl~nn .Maude S nilai y:wg mlnn. . . --. -. .-- . -. .'ferdnp:tr pola pelubnll:~~~ ~ulniy a y bcrbd:, pndn S(q,r) I U I I I . ~Lolo y:o~gdf,-nya c l c ~ ~ g: jx~~l ulcbil~kc;tl d:ui df,. S,(cl.:), S,(q,t). d:an S>[q.r)n~cmpllnynil)o!n p c r u b n l ~ . ~ ~ ~ 7 l\lodcl I nilai yang sama. I Terdapat pola perubahan nilai yang berbeda pada S(q f) untuk kata ym~gdf,-nya salna delilean atau lebili kecil dari df,dcn Statistikn 12 - ~ ~ i ldafi p l atau 2. S3(cl,t), Sl(cl,t), dan S,(q,t) lnelllplulyai pola perubaha~ll d a i yang sama. Terdapat pola perubahan lulai yang berbeda pada S(q,t) uituk k a t ~ymig df,-uya lebil~ Regesi 9 kecil dari df, d y df,,=l. ~ Pada S3(q,t) perbedam pola terlil~atpada kata dgi df,f,=5 dan df,p2. Sl(q.t) dan S2(q,t)mempunyai pola perubahan nilai yang sama. Terdapat pola perubahan ~iilaiyalig berbeda pada S(q,t) u~itukkata y.mg df,-nya sama dengan atau lebih kecil &xi df,. S3(q,t), S,(q,t), dan S2(q,t) mempunyai pola perubahan Program 9 nilai yang sanm. Terdapzt pola perubahan nilai yang berbeda pada S(q,t) iuituk kata yarlg dl;-nya mma 11 dengan atau lebih kecil dari df, d y i ddl,;,,=l, 2 atau 3. S3(g,t), S,(q,t), dan Sl(q,t) LIEonuasi mempunyai pola perubnhan n l a ~yang sama. Query
dfq (17+2) 5
.
-
I
.
7
Pada keenipat uki~rai kesammi, hasil perhitiniga~inilai kesanmi altara illput query hi kata ku~lciyang s a n a det~ga~i input query adalah satu. Sedaigkaa uutuk kata kunci yalig lain, pada ~ulai ukuwi kesamaai yang dilmsilhi, secara umum, terlihat pola yang sania pada setiap keellipat ukumi kesamaau yaitu kata kunci yallg mempunyai jul~dalitrigram (df,) yaug sans aka11 memiliki ~ulaiyaug sama. Sebagai contoh, pada Lampimi 2 kata 'arus' d a ~ 'asa11' i p a t ~ j a ~kata~ya g (n) salia denmi 4, selungga df,-~iya masingl i ~ a s i adalali ~ ~ g 6 (1rI-2). n~e~npu~iyai lulai kesamaai yalig sama sesi~aidengiu~uhiran kesamaai ya~ig digunakai. Namiul selain itu, ju~iilalitrigfa11 yang sama-sama di~niliki ole11 input query da~ikata kunci (df,,), jugs niempeli&an~lu ~ulaikesamaai yalig didapat. Sebagai contoh, kata 'liutan' h~ 'bahal' pada Lanpiran 3 mempunyai rt sania dengal 5 seliingg df,-nya masing-masing adalall 7 (n+2), na~liu~i kedua kata tersebut memnpu~~yai nilai kesamaan yang berbeda. Hal i ~ udisebabkan nilai df,,, yang berbeda. Trigra~ii untuk qucw hi~jrui adalah $$11, $1111,huj, uja, jan, ai$, dan I)$$, trigram uiituk kata 'hutal' adalah $$h, $1111, hut, uta, tal, an$, hl n$$, dau trigran uutuk kata 'ballail' adalah $$b, $ba, bah, alm, hai, an$, hi n$$. Dari trigram yalig di~ililikikata-kata tersebut dapat diketal~ui ~ulaidf;, untuk qucry hujan da~ikata 'lmtai adalah 4 s e d a n m l nilai q, uutuk quew liiijan da11 kata 'bahan adalah 2, selungga ~ulai kesamaa~niya berbeda. Pada Tabel 3 terdapat interpretasi nilai kesamaan alitara qucq~dengan kata kunci untuk setiap ukural kesailaai berdasarlml hasil perliitungai nilai kesamaan ,altars input query dengan kata kunci yang bemilai lebih besar dvi 1101 (Lampiran 2-11). Secara umum, pola psrubahan ~ulaikesaliiaali antara ukuran kesamaan Jaccard (Sl(c~t)),Dice (S2(q,t)) dan Cosilie (Sj(q,t)) sama. Namun untuk beberapa kata tertentu terjadi perbedaan pola pada S3(q,t). Sedangkan ukuran kesa~naan baru (S(q,t)) mempo~lyai pola yalig berbeda d i b n d i n g b i dengal ukuran kesamaan yang lain. Hal ilu disebabkan kare~iapada S(q,t) ha~iyanilai terbesar diaiitara df,, dan df, saja yang digunakan dilam perhitongan.
disebabkan dala~iiperliitunp~ukurati kesamaai, ~ulai df, &I df, saigat ~i~empengaruliihasil perhitunmi karena merupahi penibagi dari ukurai kesanmai. Nilai kesaiimi yang didapat i ~ u akan m e m p e ~ ~ g m liasil l u perhitunmi bobot suatu dokumen. Pada persamaail (5) lulai bobot dokumen dipet~garulu ole11 dua hal, yaitu jumlali istilali &la111 basis data yang tiie~iipu~iyai 11ilai kesa~iaan istilali lebili besar dari no1 hi nilai k e s a ~ n a aitu ~~ sendiri. Pada percobaan saat temu-kembali doku~nenterdapat dokumen relevan yang inemiliki bobot dokumen yang lebili kecil dibanding dokumen yang tidak relevan. Sebagai contoli, ketika input qucry 'air' pada siste~litemu-kembali ilforniasi dengiln perlutungai nilai kesammi S(q,t), S,(q,t), da11 S,(q,t), dokuliie~~ yaug memiliki kata kuuci 'cair' menipunyai bobot dokumen lebih besar dibandinghi dokunien relevan. Hal ini disebabkan selain menuliki kata kulici yang salna dengall qucry, dokumen releva] tersebut juga memiliki kata-kata kunci laill yalig mempuliyai lulai kesamaan lebili besar dari 1101 yaitu 'air', 'analisis' hi 'aktivasi' (Lampira~1). Dokumen-dokumen hasil temu-kembali ditampilhi secara descerzdirzg berdasarkan bobot dokumemiya da11 dibatasi deligal ~ulaia~nbaig. Banyakiya jumlah rata-rata dokuriie~~yang teranibil pada masing-masing ukumi kesali~aa~i untuk iiilai ambaig 0.1 sa~iipai0.6 berbeda-beda (L31iipirm 12 d a l G z I I ? ~6)). .~
I
Rala-rala jumlah
dokum yang terambil
I ! UIcu~.a~i Kesnm:lnn dali Bobot Doliumen I. Dari pembandingai hasil perhitungan ukuran kesamaai (Lampiral 2-11), ukural kesammi Gambar 6. Rata-rata jumlall dokumen yang S,(q,t) mempunyai ~ulai kesamaal terkecil teranibil pada ililai a~libai~g 0.1-0.6 dibanditlgka~i ukunn kesa~ilaa~lyang lain. I<emudian secara bertorut-tc~n~t dari liilai kesan~aan terkecil adalah S(q,t), S2(q,t) dan Si(q,t). Hal ini
Pada Gaiibar 6 dapat dilihat bahwa pada ~ulai Pada Gallbar 7 dapat dilihat j g d ~ k anibaig 0.1 doku~iieliyalig terruiibil cukup banyak. perbaidi~igairata-rata liilai recall-precision u~ituk Namuli ketika nilai anibang dinaikkan liietijadi 0.2 lulai aiibang 0.1 sauipai 0.6 pada ukumi kesamarui terjadi perubalw~junllal~rata-rata dokunien yang S(q,t). Pada iulai ambang 0.1-0.5 doku~ne~i yang cukup besar. Hal ilii menu~ijukkanbahwa terdapat tidak relevn ~iiasilitemi~bil,hal ini diturijukkan banyak dokumen yang liielnpuliyai bobot dokumen oleh liilai precision yalig kuraig dari satu. Na~iiu~i kurang dari 0.2 clan dokumen-dokume~itersebut nilai precision pada tulai anbang 0.6 sziia detigiui tidak relevan dengxi keinginai ppecari .illformasi. satu, ha1 i ~ berarti u selumh dokumen yang tera~iibil Rata-rata jiuilali dokumen relevan dari input query adalah dokumen yang relevan. Nanun tidak semua pada percobaali adalali 8 dokumen, dan mulai ~ulai dokumen releva11 dalaii basis data teraiibil a~iibaig 0.4 rata-rata ju~nlali dokumen yang (Lanipimi 12). Apabila liasil iiilai recall-precisio17 Sl(q,t) teraliibil sa~iiadengan rata-rata junllah dokumen relevan (Lanipinn 12). Se~iiaki~i meningkat iulai (Lampiw~ 14) dibaidingkan deligal ukural~ ambaig ~iiakajumlah rata-rata dokumen yalig kesamaan laimiya, liiaka Sl(q,t) mempuliyai liasil terambil seulakin sedikit dan semakin relevrui. yalig paling baik secara keseluruhali u~ituksetiap Diba~idin&i ukurai kesamaan yalig lain, okoran nilai amba~igiya.Hal ini dapat dililiat mulai dari kesamaan Sl(q,t) me~iipunyai jumlah dokumen ~ulai aiiba~ig 0.2 u~ituk rata-rata ~ulai rmaNtera~iibilpaling kecil pada setiap ~iilaiambruigiya precisiu~i terdapat lulai precision s m a dengall 1 (Ganibar 6), sellingig ketika ~ulai ambang mulai dari nilai recall 0.1 sa~npai0.6. Walaupun diti~igkatkan terdapat kemu~i&nai tidak memiliki lulai recall-precisio~ryang tin@, jumlah dokumen relevan yang tera~iibiluntuk setiap qucry teranibilliya doku~iie~i relevai. 0.3 cenderung lebih kecil Jumlali seluruli dokumen yang terambil dan dari nilai a~iiba~ig jumlah dokumen relevai yang terambil akan dibanding ukumn kesa~uaruiyang lain dan untuk mempengarulii liasil perlutungan rccall-precision. beberapa query terdapat dokuliie~irelevan yalig Selain itu, uilai a~iibangjuga ~iiempengan~hi nilai tidak terambil (Latiipirru~ 12). G d k perbanrecall-precision kare~ianilai anibruig menentukan dingai ~ulairata-rata recall-precision unh~knilai junilal~dolumen yang teraliibil oleh sistem. Hasil a~iibaig0.1 sa~iipai0.6 pada n k ~ r a nkesamaan rata-rata rscall-precisio~runtuk ukurai kesamaan Sl(q.t) terdapat pada Ganibar 8. S(q,t) u~ituk nilai a~iibaig 0.1 sa~iipai 0.6 (Lampiran 13) menulijukkan semakin meni~igkat ~ulai ambang, 11iaica nilai recall-~rercci.~io,r-tiya akan senlakin meningkar.
I
I
R e c a l l - P r e c i s i o n S ( q , t ) p a d a Niiai A m b a n g ( H A ) 0.1-0.6
I
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Recall
Ganibar 7. Grafik perbandingan recnll-/~reci.siiu, ontuk S(q,t)
0.9
I
Recall-Precision S l ( q , t ) p a d = N i l s i A m b a n g ( H A ) 0 . 1 6 . 6 1 0.9 0.8
.-E
0.7 0.6 0.5
E
0.4
a
0.3 0.2 0.1 0 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
1
0.9
Recall
Ga~nbar8. Grafik perbandingan recall-precisio~?untuk S~(q,t) U k u r a ~ kesamaai S2(q,t) mempunyai nilai Dialtam semua u h ~ r m kesanaa~l yaug k e s a m a i yaug besar. Tentu saja ini aka1 digonaka~, S,(q,t) liielnpuciyai liilai kesamaan lneli~pellgarulii nilai bobot dokumen sehingga palitig besar. Seperti u k u r a ~kesal~aan lainnya, nilai recalljumlah dokutl~eliyaug teranibil tin@. Keadaai ~ulaikesall~aantersebut ~i~empe~igamlu tersebut nieogakibatlmi banyak dok~cl~en yaug precision-nya (Lampirai 16). Dibandinwn tidak relevan teralibil oleh sistem. Oleli karena itu, dengm~lulai recall-precision dari u k u r a ~kes;unarui ~ulai ketika dilakuhi pendutul~gari lulai recall- yaug lain, secara UIIIUIII S3(q,t) ~iie~npuliyai precision hasil yaug didapat lebili kecil rscall-precision paling kecil. Grafik perbandi~lgan dibalidi~igkandua uikuran kesamai sebelu~nl~ya rata-rata nilai recall-precision S3(q,t) terdapat pada Gambar 10. (Lampirat1 15 d a ? Gambar 9).
I
j
I
I
R e c a l l - P r e c i s i o n S2(q.t) p a d a N i l a i A m b a n g ( N A ) 0.1-0.6
-
OL 0
0.1
0.2
0.3
I I 0.4
0.5
0.G
0.7
0.8
Recall
Gallbar 9. Grafik Perbandingan Recall-Precisio17untuk &(at)
0.0
' /
Recall-Precision SJ(q,t) p a d = N i l a i A m b a n g ( H A ) 0.1-0.6
I
0
0.1
0
0.2
0.J
0.4
0.5
0.6
0.7
0.8
1
0.0
Recall
t
N
A 0.1 t
N
A 0 . 2 +NA
0.3 x
N
A 0.4 -+NA
0.5 t
N
A 0.6
1
Gauibar 10. Grafik Perbandingan Recall-Precision untuk S3(q,t) Dari niatriks terlihat baliwa pada semua nilai Dari selumli grafik &pat dilihat bahwa dengui nilai a i ~ b a n gyang senlakin bertanbali, nilai reoall- amban& uk~turan kesanmi SI liien~putiyai nilai precisiori dari setiap ukumi kesamaai senlakin recall-precisiorl yang baik dibandingkan ukuran meningkat. Hal ini disebabkan doku~iie~i-dokun~enkesamaai yang lain. Sedan&i ukuran kesamaan relevan rata-rata mempunyai nilai bobot dokumen yang lain n~enipunyainil& recall-precision yang ti~ulaidari 0.3 sanipai 0.4. Untuk ~ulaia~nbang0.6 baik niulai dari nilai a m b a g 0.4. Natiiu11 seperti setilua ukllran kesanmi mempunyai lulai telali diketaliui bahwa pada nilai anibang 0.1-0.2 yalig tidak relevan yang precisiorr sania dengal satu. Matriks efektivitas ~iiasilibmyak doku~ue~l teniu-kembali setiap u k u w ~kesamaai~berdasarkru~ teralilbil. Hal ini dapat dilihat pada perbandingan nilni vecall-prec!sio~-~ij,a pxia 'aclai aiiba~ig(NA) a ~ ! x a rata-rata j11n:lali dokun~en yz!?g terzxbi! 0.1-0.6 (Lati~piran3-6) terdapat pada Gallbar 11. dengan rata-rata jun~lali dokuuie~irelevan pada Taida J m e ~ ~ ~ ~ ~ i j u iulai k k a ~ irecall-prmisiolt setiap ukuran kesaniaan pada nil& ambang (NA) terbaik diantara keempat u k u r a ~kesamarui pada 0.1-0.6 (Gambar 12). Rata-rata jumlah dokumen relevan adalal~8 (Lampim 12). ~ulaianbang.
Gambar 11. Matriks efektivitas temu-kembali setiap ukurati kesamaan pada nilai an~bang0.1-0.6
Gambar 12. Matriks perba~dinganrata-rata ju~ulah dolumen teranibil dengal rata-rata jumlah dokumen relevan pada ~ulai ambang 0.1-0.6
Pada G a i b a r 12 terliliat bahwa semakin llielutigkat llilai aliiba~lg,maka jumlah dokumen yang teranbil semakhi berkuralg. Karetla penallpila1 output te~iiu-kenibalidilakukai secara descolding, lliaka semakiti tin@ giulai a i l b a ~ g , dokumeti yang terarnbil semakin relevan. Na~ilutl ~liulai llilai aliibaig 0.4, terdapat kemungkinan dokt~men relevall tidak teranbil sewaktu melakukao temu-kembali iufoniiasi. Berdasarhi hasil yaug didapat dari kedua matriks di atas (Gaulbar 11 dan 12), ukuran kesam&ui yang baik diguttakalt dalam sistem temukembali illforlnasi adalah Jaccard dengall ~lilai ambalg bobot dokumen 0.3. Diharapkan denmi menggunakai ukumi kesamaati da~inilai ambang tersebut, semua doku~ilelt yang relevan dengan keinginan pencari infortnasi &pat terailbil.
IU3SIRIPULAN DAN SARAN
Saran Pada penelitiai itu ju~lilah dokumen yang digutiakai dan query yang diberikan dala~il percobaali 111asih sedikit. Oleli karetla itu disamlkan utltuk tnelakukan petielitian lebill la~uot d e n m i menggunakai julidah dokunle~ipercobaa~i dan query yang lebih banyak, selungga didapatkan liasil yang lebih aknrat.
Adisantoso, J. 1997. Temu-kembali lnformasi Menggunakan Peluang Bersyarat. Tesis. Program Pasca Sarjala Fakutas Ilmu Kolnputer, U~uversitasIndonesia, Depok. Ekmek~ioglu,F. C., Lynch, M. F. , & Willet, P. 2000. Sle~nntirtg and N-gra~nA4alclti17g jbr Tern7 Corrjlalio17117 TurkisIt TErls. (littp://www.sl~ef.ac.uM-idpublicatio~esl paperl3.html). [21 Juli 20001.
Kesirnpulan Bentuk dau paljalg istilah query maupon Rclr.iei~ol:Uala dalatii basis data meinpengan~hiliasil perhitungal Frnkes, W.B. 1992. 11~fui7r~alio17 Sh.ucltrres a17d Aigorill717r.s.Prentice-Hall, New ~ulai kesamaau~ya. Dari hasil llilai ukuran Jersey. kesamaai diketahui secara berturut-tun~tdari tulai terkecil adalah S,(q,t), S(q,t), S2(q,t), dan S3(q,t). Hal yang mempengarulii nil& bobot dokumen Kim, M.C & K.S Choi. 1999. A Comparison of Collocatioli-based Siuularity Measures in adalah llilai kesamaan dan frekuensi istilah kata Query Expaision. 11tJor177alio11 Proce.s,si17g& kullci snatu dokunleu yalig luetliiliki nilai ?.401tagct1ic!t!. 35: 19-30. kesznaati !ebih Sesar dari tiol. Semakin besar nil$ kesamaan, tiiaka iulai bobot soatu dolcumen alan Pfeifer, U.. T. Poerscll & N. Fullr. 1996. semaki~ibesar. Retrieval Effectiveness of Proper Name Nilai a~iibalg memegaig peranan penting Search Methods. I ~ f i r ~ n a l i uProcc.s.si17g ~i & dalam hasil recall-l>recision. Apabila nilai ambang A4anagmiwl. 32: 667-679. se~iiaki~i meningkat, nlaka lulai recall-~>~ecisia,t aka1 se~ilalci~l ~iieningkat.Diantara keempat ukuran kesamaan yang digmakai pada penelitian ini, Snltolt, G. 1989. Az11o11talicTexl l'rocessin~g : ?lie ~ I Y I I I ~4 1 I a, s i . s a17d Re~rielal u/' Jaccard menipunyai nilai recall-l~reos~o~i yang 11ljin71n/o17by Co111p11ler.Addison-\Vesley, baik untuk setiap nilai ambang. Apabila Canada. meliiperhatikan perbandingat1 jumlah rata-rata dokumen yang teratilbil dengalan jundah rata-rata dolnnlnen yang relevan, maka lulai alibaig yang baik digunalan Jaccard adalah 0.3. Kare~iaselaiti melnpengan~hiliilai rccoll-1~recisio11, tulai a~ilbang juga &an mempe~lgararuhijululah dokomen yalig teranibil. Semalcin meningkat nilai ambang, maka jumlah dolalmen yang terambil aban semakin berkuraiig d a i semakin relevan. Namun kemungkinan tidak terambilnya dokumen relevan juga alcan semakiti tingi.
Lampiran 1.7'abel Input Q u e y Percobaan
Lampirm 1. (Lanjutan)
Laillpirail 2. Nilai ukuran kesamaan > 0 antara query air dengan istilah-istila11 dalam basis data diunlt berdasarhl nilai ukuran kesamaannya
Latl~pinn3. Nilai ukuran kesanaan> 0 a ~ t a r aquery hujan dengan istilalristilah dala~nbasis data diumt bcrdasarkan nilai ukunn kesamaamlya
Lalnpiran 4. Nilai ukuran kesamaan > 0 allfan query an;llisis dellgall islilah-islilah dalalll basis data diun~l bcrdasarkali nilai ukuran kcsamaamya
Lampimi I.(Lanjutan)
Lalnpinn 5. Nilai u k u r a ~kesamaan > 0 antara q u e y sistem dengal istilah-istilah d; berdasarkan nilai ukurm kesan~a&u~ya
basis
Lampinn 5 . (Lanjutan)
Lampinn 6 . Nilai ukurail kesauaan > 0 antara query mctode dengall istilalristilah dala~ubasis data diumt berdasarkan ililai ukuran kesai~iaannya
Lampiran 7. Nilai ukuran kcsalllaan > 0 antan query model dengan istilah-istilall dalaiu bcrdasarkan nilai ukuran kesamaalu1g.a
Lalllpimi 7.(Lanjutan)
La~npiran8. Nilai ukuran k e s a ~ ~ a a 0l >altars query statistika dengan istilali-istilah dalan~basis data diurut b e r d a s a h ~nilai ukuran kesanlaannya
Lalitpiran 8. (Lanjutan)
Lampinn 8. (Lajutan)
Lampirm 9. Nilai ukuran kesamaai > 0 antara query regrcsi dengan istilah-istilah dalam basis data diumt berdasarkan ~ l aukunn i kesalnaan~~yd
Laulpirau 10. Nilai ukuran kesa~~laan > 0 alllam query program dcngan islilah-istilah dalam basis data diurul berdasarkar~nilai ukuran kesamaa~mya
Lampiran 11. Nilai ukuran kesa~llaal~ > 0 alltan qlrcry inforrn:lsi dengan islilah-istilall dala111basis dara diumt berdasarkan nilai ukuran kesall1aa~)'a
Lampiran 11. (Lanjutan)
Lampiran 11. (Lanjutan)
Lampiran 13. Tabel Rata-rata Nilai Recall-precision untuk Nilai Ambang WA) 0.1-0.6 pada Ukuran Kesamaan Barn (S(q,t))
Lampiran 14. Tabel Rata-rata Nilai Recall-prrcisiori untuk Nilai Ambang (NA) 0.1-0.G pada Ukuran Kesanlaan Jaccard (Sl(q,t))
Lampiran 15. Tabel Rata-rata Nilai Recall-precision untuk Nilai Ambang (NA) 0.1-0.6 pada Ukuran Kesamaan Dice (Sz(q,t))
Lanrpiran 16. Tabel Rata-rata Nilai Recall-precisio~zuntuk Nilai Anlbang (NA) 0.1-0.6 pada Ukuran Kesamaan Cosine (S,(q,t))