PENCARIAN NAMA ILMIAH PADA KOLEKSI TESIS PERPUSTAKAAN IPB MENGGUNAKAN ALGORITME DOUBLE METAPHONE
HARRY CAHYADI
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2010
i
PENCARIAN NAMA ILMIAH PADA KOLEKSI TESIS PERPUSTAKAAN IPB MENGGUNAKAN ALGORITME DOUBLE METAPHONE
HARRY CAHYADI
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
i
ABSTRACT HARRY Cahyadi. Scientific Names Search In IPB Library Thesis Collection. Under direction of FIRMAN ARDIANSYAH. Technique to obtain documents with the appropriate content as needed is essential. That is why search string method (string matching) of the contents document is needed. Searching process sometimes has a problems when the input typing or query is incorrect (typo mistake), can be caused by a human error or from input devices. The method used in this study is based on similarity phonetic string matching. Phonetic string matching algorithm that used in the study is double metaphone algorithm. Double metaphone algorithm has the ability to match a string based on the utterance of the good aspects of vowel changes. Making it easier to search documents and information as needed. Based on the results of the study, can be proven that the thesis searching by using double metaphone algorithm can solved the problem that caused by a typo mistake. The used of double metaphone on scientific words turned out to work well, this is because the pronunciation of scientific words similar to English pronunciation. Double metaphone algorithm can work well with typomistake if there is not a change in pronunciation of consonants, especially in writing the difference. Keywords: string matching, typo mistake, phonetic string matching, metaphone, double metaphone.
Penguji 1. Ahmad Ridha, S.Kom, M.S. 2. Sony Hartono Wijaya, S.Kom., M.Kom.
i
Judul Nama NIM
: Pencarian Nama Ilmiah Pada Koleksi Tesis Perpustakaan Menggunakan Algoritme Double metaphone : Harry Cahyadi : G64066035
Menyetujui :
Pembimbing
Firman Ardiansyah, S.Kom, M.Si. NIP 19790522 200501 1 003
Mengetahui : Ketua Departemen Ilmu Komputer Institut Pertanian Bogor
Dr. Ir. Sri Nurdiati, M.Sc NIP 19601126 198601 2 001
Tanggal Lulus:
PRAKATA Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga tugas akhir ini dengan judul Pencarian Nama Ilmiah Pada Koleksi Tesis Perpustakaan Menggunakan Algoritme Double metaphone, dapat diselesaikan. Dalam menyelesaikan karya tulis ini penulis mendapatkan banyak sekali bantuan, bimbingan dan dorongan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih yang sebesar-besarnya kepada semua pihak yang telah membantu kelancaran penelitian ini, antara lain kepada: 1
Bapak Firman Ardiansyah, S.Kom., M.Si., selaku pembimbing yang telah memberikan bimbingan, dukungan, dan bantuan kepada penulis selama mengerjakan tugas akhir ini.
2
Penguji yang sudah memberikan masukkan selama penyusunan tugas akhir ini.
3
Seluruh dosen IPB yang telah memberikan banyak ilmu kepada penulis.
4
Istri dan orang tua tercinta, Bapak dan ibu atas segala do’a, kasih sayang, dan dukungannya.
5
Eka, Anna, Silvi, Rika, Holili, Ajiz, dede, Arie, Feri, Jefffy, Agung, Nurul, Dimas, Weni, dan seluruh teman-teman Ilkom Ekstensi Angkatan 1.
Penulis juga mengucapkan terimakasih kepada semua pihak yang telah membantu dalam penyelesaian tugas akhir ini yang tidak dapat disebutkan satu-persatu. Semoga penelitian ini dapat memberi manfaat.
Bogor, 19 November 2010
Penulis
RIWAYAT HIDUP Penulis dilahirkan di Purwodadi pada tanggal 16 Mei 1983 sebagai anak kedua dari tiga bersaudara dari pasangan Turyadi dan Nurnaeni. Penulis menyelesaikan masa studinya di Sekolah Menengah Umum Negeri 3 Bogor pada tahun 2001. Pada tahun 2001 penulis melanjutkan pendidikan pada Diploma 3 Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada tahun 2007 penulis melanjutkan pendidikan di Program S1 Ilmu Komputer Penyelenggaraan Khusus Institut Pertanian Bogor. Selain itu juga penulis bekerja sebagai Karyawan swasta di suatu perusahaan yang bergerak di bidang telekomunikasi.
DAFTAR ISI Halaman DAFTAR TABEL................................................................................................................................... vi PENDAHULUAN ................................................................................................................................... 1 Latar Belakang ..................................................................................................................................... 1 Tujuan Penelitian.................................................................................................................................. 1 Ruang Lingkup Penelitian .................................................................................................................... 1 Manfaat Penelitian................................................................................................................................ 1 TINJAUAN PUSTAKA .......................................................................................................................... 1 Sistem Temu-Kembali Informasi......................................................................................................... 1 XML ..................................................................................................................................................... 2 Pencocokan String ................................................................................................................................ 2 Algoritme Phonetic String Matching ................................................................................................... 2 Parsing.................................................................................................................................................. 3 Pengindeksan ........................................................................................................................................ 3 Corpus .................................................................................................................................................. 3 Pembobotan TF-IDF ............................................................................................................................ 3 Similarity Measurement ....................................................................................................................... 4 Vector Space Model ............................................................................................................................. 4 Recall Precision ................................................................................................................................... 4 METODE PENELITIAN ........................................................................................................................ 5 Koleksi Dokumen ................................................................................................................................. 5 Tahap-tahap Penelitian ......................................................................................................................... 5 Text Operation ...................................................................................................................................... 5 Konversi Double Metaphone ............................................................................................................... 5 Indexing ................................................................................................................................................ 5 Pembobotan .......................................................................................................................................... 5 Query operation ................................................................................................................................... 5 Searching .............................................................................................................................................. 5 Ranking ................................................................................................................................................. 6 Recall Precision ................................................................................................................................... 6 Asumsi-asumsi ..................................................................................................................................... 6 Lingkungan Implementasi.................................................................................................................... 6 HASIL DAN PEMBAHASAN ............................................................................................................... 6 Koleksi Dokumen ................................................................................................................................. 6 Text Operation ...................................................................................................................................... 7 Konversi Double Metaphone ............................................................................................................... 7 Indexing ................................................................................................................................................ 7 Pembobotan .......................................................................................................................................... 8 Query Operation .................................................................................................................................. 8 Searching .............................................................................................................................................. 8 Ranking ................................................................................................................................................. 8 Evaluasi Sistem Temu Kembali Informasi .......................................................................................... 9 KESIMPULAN DAN SARAN ............................................................................................................. 10 Kesimpulan ......................................................................................................................................... 10 Saran ................................................................................................................................................... 10 DAFTAR PUSTAKA ............................................................................................................................ 10 LAMPIRAN ........................................................................................................................................... 12
DAFTAR TABEL Halaman 1 Daftar query ....................................................................................................................................... .6 2 Daftar kombinasi kesalahan pengetikan untuk query ”Musa Sapientum” ....................................... .7 3 Daftar contoh kata kunci ................................................................................................................... .7 4 Hasil konversi double metaphone ..................................................................................................... .7 5 Daftar hasil indexing ......................................................................................................................... .8 6 Tabel hasil pembobotan .................................................................................................................... .8 7 Hasil nilai dot product ...................................................................................................................... .9 8 Hasil nilai vector magitudes ............................................................................................................. .9 9 Hasil nilai kosinus ............................................................................................................................. 9 10 Nilai average recall precission ......................................................................................................... 9 11 Hasil pencocokan query .................................................................................................................... 10 12 Rata-rata hasil ujicoba query beserta kombinasi kesalahan penulisan ............................................ 10
DAFTAR LAMPIRAN Halaman 1 Aturan double metaphone .................................................................................................................... 13 2 Alur sistem ........................................................................................................................................... 14 3 Tabel hasil query .................................................................................................................................. 14
vii
PENDAHULUAN Latar Belakang IPB adalah sebuah institusi yang banyak bergerak di bidang pertanian, memungkinkan tesis tertentu untuk menyertakan nama ilmiah. Tesis ini sangat penting karena banyak data dan informasi yang terkandung di dalamnya. Perpustakaan IPB pada saat ini memiliki banyak sekali judul tesis yang beberapa di antaranya mengandung nama ilmiah, begitu banyaknya sehingga diperlukan sistem temu kembali informasi dalam melakukan pencariannya. Pada saat melakukan pencarian pada data tesis ini sering terjadi typo mistake atau kesalahan dalam pengetikan string bahasa ilmiah tersebut, kesalahan ini menyebabkan data tesis yang ditampilkan menjadi kurang akurat atau bahkan tidak sesuai. Kesalahan proses pengetikan ini sering terjadi karena kesalahan dalam pengejaan atau disebabkan juga oleh perangkat yang digunakan dalam mengetik string tersebut. Pencocokan string merupakan bagian penting dari sebuah proses pencarian string (string searching) dalam sebuah dokumen. Hasil dari pencarian sebuah string dalam dokumen tergantung dari teknik atau cara pencocokan string yang digunakan. Pencocokan string (string matching) menurut Dictionary of Algorithms and Data Structures, National Institute of Standards and Technology (NIST), diartikan sebagai sebuah permasalahan untuk menemukan pola susunan karakter string didalam string lain atau bagian dari isi teks. Saat ini sudah banyak ditemukan algoritme pencocokan string berdasarkan kemiripan ucapan (phonetic string matching). Algoritmealgoritme tersebut masih menghadapi masalah tidak akuratnya hasil yang diberikan, seiring dengan begitu bervariasinya string yang akan dicocokkan. Digunakannya algoritme double metaphone pada penelitian ini karena algoritme tersebut memiliki kemampuan mencocokkan string berdasarkan ucapan dari aspek pengubahan vokal yang baik. Tujuan Penelitian Penelitian ini bertujuan untuk menerapkan algoritme double metaphone untuk pencarian nama ilmiah pada koleksi tesis perpustakaan IPB untuk mengurangi kesulitan pencarian akibat typo mistake.
Ruang Lingkup Penelitian Ruang lingkup dari penelitian ini adalah sebagai berikut : 1. Kata kunci yang digunakan hanya 500 kata ilmiah. 2. Dokumen yang digunakan adalah dokumen perpustakaan IPB yang telah dikonversi ke XML. 3. Jumlah dokumen yang digunakan 7193 dokumen. 4. Tidak ada kesalahan dalam penulisan tag
- dalam dokumen. 5. Kata kunci diambil dari dokumen xml yang memiliki tag kata kunci (). Setiap dokumen dianggap memiliki nomor registrasi yang berbeda, sehingga nomor registrasi tersebut dijadikan sebagai kode dokumen (). 6. Untuk percobaan digunakan 10 kata kunci dengan kombinasi 10 kesalahan pengetikan pada setiap kata kunci tersebut. Manfaat Penelitian Diharapkan dengan adanya penelitian ini, maka dapat menjadi sebuah referensi terhadap pemilihan algoritme dalam pencocokan string. Penelitian ini juga memberikan sedikit gambaran mengenai proses pencarian data dengan menggunakan metode double metaphone sehingga dapat membantu jika terjadi kesalahan pengetikan atau pengejaan (typo mistake), selain itu juga mempermudah pencarian data dalam suatu aplikasi sistem pencarian.
TINJAUAN PUSTAKA Sistem Temu-Kembali Informasi Menurut Kowalski (1997) dalam bukunya ”Information retrieval system theory and implementation”, Sebuah information retrieval system (IRS) adalah sistem yang mampu menyimpan, mengembalikan dan memelihara informasi. Informasi disini dapat berupa kumpulan teks, suara, video dan objek multimedia lainnya. Sifat pencarian sistem temu kembali informasi berbeda dengan sistem temu kembali data (misalnya dalam sistem manajemen basis data) dalam beberapa segi, antara lain spesifikasi query yang tidak lengkap, dan tingkat ketanggapan kesalahan yang tidak
1
peka (Rijsbergen 1979). Alasan utamanya adalah IRS menangani teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto 1999). IRS bekerja berdasarkan query yang diberikan pengguna yang menghasilkan daftar dokumen yang dianggap relevan. IRS mungkin saja tidak menghasilkan apa-apa jika memang tidak ditemukan dokumen yang relevan. Juga perlu diingat bahwa tidak ada jaminan bahwa seluruh materi yang di temu- kembalikan tersebut relevan dengan yang diinginkan pengguna dan belum tentu seluruh materi yang relevan dengan permintaan pengguna berhasil di temu-kembalikan. Berikut merupakan model model IR: Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional Model Probabilistik : merupakan model IR yang menggunakan framework probabilistik XML XML adalah Extensible Markup Language (XML) adalah format teks yang sederhana dan sangat fleksibel yang diambil dari SGML (Standard Generalized Markup Language). Keduanya merupakan meta bahasa yang dapat digunakan untuk mendefinisikan markup language (Lalmas 2009). XML merupakan sebuah markup language untuk dokumen-dokumen yang mengandung informasi terstruktur. Di mana markup language adalah sebuah mekanisme untuk mengidentifikasi struktur-struktur dalam sebuah dokumen. Spesifikasi XML menetapkan cara standar untuk menambahkan markup ke dalam dokumen XML berbeda dengan HTML, dalam HTML tag sematics dan tag set keduanya tetap. Sedangkan pada XML disediakan fasilitas untuk menentukan tags dan hubungan struktural di antara keduanya. Pencocokan String Menurut Syaroni & Munir (2004), pencocokan string (string matching) secara garis besar dapat dibedakan menjadi dua yaitu : 1.
Exact string matching, merupakan pencocokan string secara tepat dengan susunan karakter dalam string yang dicocokkan memiliki jumlah maupun
2.
urutan karakter dalam string yang sama. Contoh : kata step akan menunjukkan kecocokan hanya dengan kata step. InExact string matching atau Fuzzy string matching, merupakan pencocokan string secara samar, maksudnya pencocokan string di mana string yang dicocokkan memiliki kemiripan di mana keduanya memiliki susunan karakter yang berbeda (mungkin jumlah atau urutannya) tetapi string-string tersebut memiliki kemiripan baik kemiripan tekstual/penulisan (approximate string matching) atau kemiripan ucapan (phonetic string matching). InExact string matching masih dapat dibagi lagi menjadi dua yaitu : a. Pencocokan string berdasarkan kemiripan penulisan (approximate string matching) merupakan pencocokan string dengan dasar kemiripan dari segi penulisannya (jumlah karakter, susunan karakter dalam dokumen). Tingkat kemiripan ditentukan dengan jauh tidaknya beda penulisan dua buah string yang dibandingkan tersebut dan nilai tingkat kemiripan ini ditentukan oleh pemrogram (programmer). Contoh : compuler dengan compiler, memiliki jumlah karakter yang sama tetapi ada dua karakter yang berbeda. Jika perbedaan dua karakter ini dapat ditoleransi sebagai sebuah kesalahan penulisan maka dua string tersebut dikatakan cocok. b. Pencocokan string berdasarkan kemiripan ucapan (phonetic string matching) merupakan pencocokan string dengan dasar kemiripan dari segi pengucapannya meskipun ada perbedaan penulisan dua string yang dibandingkan tersebut. Contoh step, dengan steppe, sttep, stepp, stepe.
Algoritme phonetic string matching Pencocokan string berdasarkan kemiripan ucapan (phonetic string matching) merupakan pencocokan string dengan dasar kemiripan dari segi pengucapannya meskipun ada perbedaan penulisan dua string yang dibandingkan tersebut. Algoritme phonetic string matching yang ada saat ini adalah algoritme soundex, metaphone, double metaphone dan masih banyak lagi, berikut deskripsi mengenai beberapa algoritme tersebut:
2
Algoritme soundex pertama kali dipatenkan oleh Margaret O'Dell and Robert C. Russell pada tahun 1918, tetapi algoritme ini kemudian disempurnakan lagi. Algoritme soundex menghasilkan kode fonetik dengan panjang empat karakter untuk semua panjang string masukan.
Algoritme metaphone merupakan algoritme yang melakukan penanganan secara khusus terhadap setiap fonem (satuan bunyi bahasa) dalam kata.
Algoritme double metaphone merupakan algoritme penyempuraan dari metaphone dan algoritme terdahulu, yang ditulis oleh Lawrence Philips. Ditulis double karena algoritme ini mengembalikan primary dan secondary code untuk sebuah string.
Ketiga algoritme memiliki langkah umum yang sama dalam mencocokkan kata. Langkah umum ketiga algoritme dalam mencocokkan kata meliputi :
Menerima masukan berupa string yang akan dicocokkan.
Mengubah masukan menjadi kode fonetis (phonetic code). Kode fonetis adalah kode yang dihasilkan dari sebuah string berdasarkan cara pengucapannya.
Double metaphone dianggap paling baik karena menghasilkan 2 buah kode, yaitu primary code, dan secondary code sehingga mempermudah dalam pencarian string. Untuk detail aturan double maetaphone dapat dilihat pada Lampiran 1. Parsing Untuk pemrosesan, dokumen dipilah menjadi unit-unit yang lebih kecil misalnya berupa kata, frasa atau kalimat. Unit pemrosesan tersebut disebut sebagai token. Parsing merujuk pada proses pengenalan token yang terdapat dalam rangkaian teks (Grossman 2002). Proses ini memerlukan pengetahuan bahasa untuk menangani karakter-karakter khusus, serta menentukan batasan satuan unit dalam dokumen. Proses parsing akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya.
Pengindeksan Sebuah bahasa indeks adalah bahasa yang digunakan untuk menggambarkan dokumendokumen dan permintaan-permintaan. Elemen bahasa indeks adalah istilah indeks, yang dapat diturunkan dari teks dokumen yang digambarkan atau dibuat secara mandiri (Rijsbergen 1979). Salton (1968) menunjukkan bahwa sistem pencarian dan analisa teks yang sepenuhnya otomatis tidak menghasilkan kinerja temukembali yang lebih buruk dibandingkan dengan sistem konvensional yang menggunakan pengindeksan dokumen manual dan formulasi pencarian manual. Corpus Istilah corpus terutama dikenal dalam bidang linguistik yang pada prinsipnya bermakna koleksi yang memiliki lebih dari satu teks. Suatu corpus modern memiliki beberapa karakteristik yakni (McEnery & Wilson 2001): • Sampling & representativeness • Finite size • Machine-readable form • A standard reference Suatu corpus pengujian sistem temu kembali informasi terdiri atas: • koleksi dokumen • topik-topik, yang dapat digunakan sebagai query • relevance judgement, sebagai daftar dokumen yang relevan dengan topik-topik yang tersedia Corpus dapat menyediakan pendekatan yang seragam dalam evaluasi kinerja sistem temu kembali informasi. Teknik evaluasi ini juga digunakan dalam Text Retrieval Conference (Hiemstra & Leeuwen 2001). Pembobotan tf –idf Bobot merupakan kepentingan/ kontribusi term terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen. Biasanya term yang berbeda memiliki frekuensi yang berbeda. Di bawah ini terdapat beberapa metode pembobotan berdasarkan : 1. Term frequency yaitu metode yang paling sederhana dalam membobotkan setiap term. Setiap term diasumsikan memiliki kepentingan yang proporsional terhadap jumlah kemunculan term pada dokumen. Bobot dari term t pada dokumen d yaitu :
3
TF(d,t) = f (d, t) di mana f(d,t) adalah frekuensi kemunculan term t pada dokumen d 2. Inverse Document Frequency (IDF). Bila term frequency memperhatikan kemunculan term di dalam dokumen, maka IDF memperhatikan kemunculan term pada kumpulan dokumen. Latar belakang pembobotan ini adalah term yang jarang muncul pada kumpulan dokumen sangat bernilai. Kepentingan tiap term diasumsikan memiliki proporsi yang berkebalikan dengan jumlah dokumen yang mengandung term. Faktor IDF dari term t yaitu : IDF(t) = log( N / df(t) ) di mana N adalah jumlah seluruh dokumen, df(t) jumlah dokumen yang mengandung term t. 3. TFIDF, yaitu perkalian antara term frequency dan IDF dapat menghasilkan performansi yang lebih baik. Kombinasi bobot dari term t pada dokumen d yaitu : TFIDF(d,t) = TF(d,t) x IDF(t) Term yang sering muncul pada dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TFIDF akan meningkat dengan jumlah kemunculan term pada dokumen dan berkurang dengan jumlah term yang muncul pada dokumen. Similarity measurement Similarity measurement adalah keterhubungan di antara satu istilah dengan istilah lain yang dalam kumpulan dokumen dihitung dengan menggunakan beberapa ukuran kemiripan. Beberapa ukuran kesamaan yang dapat digunakan dalam temu kembali informasi di antaranya Inner Product, kosinus, dice, jaccard, overlap dan asymmetric. Pada penelitian yang dilakukan oleh Rorvig (1999), dibandingkan lima ukuran kesamaan (kosinus, dice, jaccard, overlap, dan asymetric) hasil uji menunjukkan bahwa ukuran kesamaan kosinus dan overlap memiliki kinerja temu kembali yang lebih baik dibanding yang lain. Dari hasil penelitian yang dilakukan oleh Rahman (2006) yang melakukan perbandingan kinerja empat ukuran kesamaan (kosinus, dice,
jaccard, dan overlap), hasil uji menunjukkan bahwa ukuran kesamaan kosinus memberikan kinerja temu kembali yang lebih baik dibandingkan dengan tiga ukuran kesamaan lainnya. Berdasarkan hasil uji ukuran kesamaan dice dan jaccard tidak jauh berbeda, sedangkan overlap memiliki kinerja yang paling rendah. Vector Space Model Vector Space Model (VSM) merupakan salah satu model matematika yang digunakan untuk merepresentasikan sistem dan prosedur temu kembali informasi yang merepresentasikan query dan dokumen dengan gugus istilah yang menghitung kesamaan global antara query dan dokumen (Salton 1989) Dalam temu kembali informasi pada dokumen, VSM digunakan untuk memodelkan tingkat kesamaan antara dokumen dengan query. Pada umumnya pengukuran tingkat kesamaan dilakukan dengan cara menghitung kosinus sudut antara vektor query dengan dokumen. Query dan dokumen dapat dinyatakan dalam vektor istilah sebagai berikut: Q = (WQ(t1), WQ(t2), WQ(t3), ..., WQ(tn)) D = (WD(t1), WD(t2), WD(t3), ..., WD(tn)) dengan WQ(ti) adalah bobot istilah t dalam query dan WD(ti) adalah bobot istilah t dalam dokumen. Nilai WD(ti) adalah nilai tf-idf(ti). Selanjutnya derajat kesamaan Q, D antara dokumen dan query dapat dihitung menggunakan kosinus sudut antara vektor D dan Q dengan rumus sebagai berikut: (Rahman 2006)
Q, D
tiQ|D WQ ti WD ti Q D
Recall Precision Keakuratan suatu sistem dalam mengembalikan informasi yang relevan dapat diukur dengan menghitung nilai Recall Precision. Menurut Grossman (2008), Recall adalah jumlah kalimat atau informasi yang relevan yang dikembalikan oleh sistem dibandingkan dengan jumlah kalimat atau informasi relevan yang seharusnya dikembalikan oleh sistem. Sementara Precision adalah jumlah kalimat atau informasi yang relevan yang dikembalikan oleh sistem dibandingkan dengan jumlah kalimat atau informasi keseluruhan (relevan dan tidak relevan) yang ditampilkan oleh sistem.
4
Dalam perkembangan teori IR, ukuran dan eksperimen terhadap kinerja sebuah sistem semakin diupayakan untuk mengakomodasi berbagai kemungkinan dalam situasi yang sesungguhnya. Recall dan Precision dapat dinyatakan sebagai berikut:
dokumen yang sudah dimasukkan ke dalam database dilakukan parsing untuk mengambil kata kunci. Kata kunci yang telah dipisahkan kemudian dimasukkan ke dalam tabel kata kunci. Kata kunci ini kemudian diseleksi sesuai dengan batasan sistem yaitu sebanyak 500 kata kunci. Kata kunci yang dipilih adalah kata kunci yang dianggap mengandung nama ilmiah dan dipilih secara manual. Konversi Double metaphone
dengan A adalah jumlah dokumen yang ditemukembalikan, R adalah jumlah dokumen yang relevan dalam koleksi, dan A ∩ R adalah jumlah dokumen relevan yang ditemukembalikan. (Baeza-Yates & RibeiroNeto 1999).
METODE PENELITIAN Koleksi Dokumen Proses awal dalam penelitian ini yaitu dengan mengumpulkan data yang terdapat pada CDS ISIS perpustakaan IPB 2006. Setelah dikumpulkan kemudian dikonversi ke dalam format XML. Selanjutnya data XML tersebut di konversi kembali dan disimpan menjadi sebuah database MySQL yang akan dijadikan sebagai corpus dalam sistem ini. Tahap-tahap Penelitian Gambaran sistem secara umum dapat dilihat pada Gambar 1, sedangkan untuk alur sistem dapat dilihat pada Lampiran 2.
Setelah dilakukan pemilihan terhadap kata kunci tersebut, kemudian dilakukan proses konversi ke format double metaphone. Hasil konversi ini berupa kode yang kemudian dimasukkan ke dalam database. Setiap kode yang dihasilkan nantinya akan dibandingkan dengan hasil koversi query yang dimasukkan oleh pengguna. Indexing Kata kunci yang telah dikonversi dengan menggunakan algoritme double metaphone kemudian dilakukan proses indexing, yaitu proses pencarian dan penandaan terdapat di dokumen mana saja kata kunci tersebut. Data hasil index ini dibuat dengan teknik inverted index. Pembobotan Setelah dilakukan pengindeksan kata kunci dengan menggunakan teknik inverted index, setiap kata kunci tadi diberi pembobotan menggunakan rumus tf * idf. Hasil dari pembobotan tersebut kemudian disimpan ke dalam database agar bisa diproses pada tahap selanjutnya. Query operation
Gambar 1 Sistem Temu Kembali Informasi.
Hasil query yang dimasukkan oleh pengguna kemudian diproses dengan melakukan pembobotan pada setiap query tersebut. Untuk menghindari kesalahan pengetikan maka hasil query ini akan dikonversi ke dalam format double metaphone dan dibandingkan dengan hasil konversi yang sudah ada dalam database. Setelah itu kata kunci yang berkaitan akan ditampilkan sebagai pilihan pengguna dalam melakukan proses temu kembali informasi.
Text Operation
Searching
Pada tahapan text operation dokumen data tesis perpustakaan IPB yang memiliki nama ilmiah disimpan ke dalam database yang akan digunakan dalam pencocokan string. Dari
Proses pencarian yaitu proses pembandingan dan penghitungan tingkat kesamaan atau kedekatan query yang dimasukkan pengguna dengan dokumen yang
5
ada. Tiga tahapan umum algoritme pencarian pada inverted index yaitu (untuk query tertentu beberapa tahapan dapat tidak digunakan): a.
b.
c.
Vocabulary search : query dicari di dalam perbendaharan kata yang terdapat di indeks. hal yang perlu ditekankan adalah query harus dipisahkan per kata (parsing). Retrieval of occurances : daftar dari semua kata-kata yang ditemukan (cocok dengan query) yang akan ditemukembalikan. Manipulation of occurrences : kejadian-kejadian diproses untuk menyelesaikan masalah frase, kedekatan, atau operasi boolean. Jika blok pengalamatan digunakan, mungkin pencarian langsung ke dalam teks akan dibutuhkan untuk menemukan informasi yang hilang dari kejadian-kejadian tersebut.
Ranking Setelah proses pencocokan dokumen, maka dokumen yang memiliki keterhubungan di urutkan berdasarkan tingkat relevansinya dengan query yang dimasukkan oleh pengguna. Nilai relevansi tersebut dapat dicari dengan menggunakan rumus kosinus. Setelah didapatkan nilainya kemudian dokumen tersebut ditampilkan kembali, diurutkan berdasarkan nilai kosinus terbesar. Recall Precision Setelah menampilkan hasil pencarian berdasarkan nilai kosinus terbesar maka diperlukan penilaian keakuratan sistem dalam mengembalikan informasi yang relevan, yaitu dengan menghitung nilai Recall Precision. Asumsi-asumsi Asumsi yang akan digunakan penelitian ini adalah sebagai berikut :
dalam
1. Kata kunci yang digunakan hanya 500 kata ilmiah. 2. Dokumen yang digunakan adalah dokumen perpustakaan IPB yang telah dikonversi ke XML. 3. Jumlah dokumen yang digunakan 7193 dokumen. 4. Tidak ada kesalahan dalam penulisan tag - dalam dokumen. 5. Kata kunci diambil dari dokumen xml yang memiliki tag kata kunci. Setiap
dokumen dianggap memiliki nomor registrasi yang berbeda, sehingga nomor registrasi tersebut dijadikan sebagai kode dokumen. 6. Untuk percobaan disiapkan kombinasi 10 kesalahan pengetikan pada 10 kata kunci yang sudah dipilih. Lingkungan Implementasi Lingkungan yang akan digunakan pada saat proses implementasi untuk perangkat lunak menggunakan Windows XP untuk sistem operasi, Apache untuk web server dan MySQL untuk database. Sedangkan untuk perangkat keras yang digunakan adalah Processor Intel Dual Centrino, RAM 512 MB, Harddisk dengan kapasitas 160 GB.
HASIL DAN PEMBAHASAN Koleksi Dokumen Perpustakaan IPB menggunakan database ISIS sebagai sistem informasi perpustakan, data dari database ISIS ini kemudian dikonversi menjadi XML. Dokumen yang digunakan dalam penelitian ini adalah dokumen dari hasil konversi XML tersebut yang telah diekspor ke dalam MYSQL, sehingga memudahkan dalam implementasi selanjutnya. Tabel 1 Daftar query No 1 2 3 4 5 6 7 8 9 10
Kata Musa sapientum Oryza sativa Aspergillus flavus Fusarium oxysporum Allium sativum Anopheles Sundaicus Anopheles aconitus Arbuscula mycorhiza Solanum tuberosum Capsicum annuum
Data yang digunakan adalah hanya data yang berhubungan dengan tesis saja, jumlah total dokumen yang berhasil diekspor adalah 7193 dokumen. Field yang diambil adalah pengarang, pembimbing, deskripsi, penerbit, nomor panggil, lokasi subjek, jumlah eksemplar, bahasa, kata kunci. Untuk melakukan uji coba maka dibentuk daftar query yang akan dipergunakan dalam mengukur kinerja dari sistem temu kembali informasi dengan menggunakan algoritme double
6
metaphone, daftar query tersebut dapat dilihat pada Tabel 1. Dari table query dibuat sepuluh kombinasi kesalahan pengetikan terhadap setiap query tersebut. Contoh daftar kombinasi kesalahan pengetikan query ”Musa Sapientum” dapat dilihat pada Tabel 2. Tabel 2 Daftar kombinasi kesalahan pengetikan untuk query ”Musa Sapientum” No 1 2 3 4 5 6 7 8 9 10
Kata Musa sapintum Musa sapinetum Musa aspintum Musa sapinitum Msa sapinitum Mousa sapientum Mus sapientum Musa sapnetum Musas sapientum Musas spaintum
Text Operation Setelah data dokumen dimasukkan ke dalam database dilanjutkan dengan proses seleksi kata kunci. Dari data dokumen yang dimasukkan dilakukan proses parsing, tag kata kunci disini sudah ditentukan sebelumnya dalam database ISIS sehingga memudahkan dalam proses parsing kata kunci. Selain kata kunci tag-tag yang tersedia pada XML tersebut adalah nomor registrasi, jumlah eksemplar, badan pemilik, bahasa, Jenis karya, tanggal registrasi, tanggal input olah, nomor kendali, nomor UDC, nomor panggil, pengarang, judul, impresum, fisik, catatan, subjek, badan korporasi, program studi, pembimbing, kata kunci, kode operasional, dan bibliografi. Semua nama field dalam XML tersebut ditulis dengan kode tertentu. Nomor registrasi akan digunakan sebagai id suatu dokumen karena satu nomor registrasi mewakili satu dokumen. Kata kunci yang telah dipisahkan dimasukkan ke dalam tabel kata kunci. Kata kunci ini diseleksi sesuai dengan batasan penelitian yaitu sebanyak 500 kata kunci. Kata kunci yang akan digunakan adalah kata kunci yang dianggap mengandung nama ilmiah. Contoh kata kunci yang mengandung nama ilmiah dapat dilihat di Tabel 3.
Tabel 3 Daftar contoh kata kunci No 1 2 3 4 5 6 7 8 9 10
Kata Aconitus Annularis Nigerrimus Umbrosus Gracilis Gradifolius Hexapetallus Macranthus Suaveolens Rhizogenes
Konversi Double metaphone Setelah kata kunci tersebut disimpan dalam tabel kemudian dilakukan proses konversi ke double metaphone. Setiap kata kunci dicari hasil konversinya kemudian disimpan ke dalam database. Double metaphone mereduksi alfabet menjadi enam belas suara konsonan yaitu : B, X, S, K, J, T, F, H, L, M, N, P, R, 0, W, dan Y. Suara ‘sh’ direpresentasikan dengan ‘X’ dan nol (‘0’) merepresentasikan suara ‘th’, dan satu buah vocal A. Penjelasan dari aturan double metaphone tersebut dapat dilihat pada Lampiran 1. Hasil konversi ini berupa kode yang kemudian dimasukkan ke dalam database di mana setiap kode yang dihasilkan nantinya akan dibandingkan dengan query yang dimasukkan oleh pengguna. Hasil konversi kata kunci dengan menggunakan aturan double metaphone dapat dilihat pada Tabel 4. Tabel 4 Hasil konversi double metaphone
kata kunci dm1
dm2
Aconitus Rhizogenes Nigerrimus Acacia paradisiaca loranthifolia Koningii
AKNT RSKN NKRM AKX PRTX LRNT KNNK
AKNT RSJN NJRM AKS PRTS LRN0 KNNJ
Indexing Kata kunci yang telah diseleksi dan dikonversi tadi kemudian dilanjutkan dengan proses indexing, yaitu proses pencarian dan penandaan terdapat di dokumen mana saja yang mengandung double metaphone tersebut berada. Dengan menggunakan teknik inverted index maka hasilnya dapat dilihat pada Tabel 5.
7
Tabel 5 Daftar hasil indexing Double Metaphone NTRT
Id_Doc 1,885,1056,1057,1058,1346,1390, 1391,1392,1393,2230,4231,4471, 4664,4664,5219,6732,6756
FNTP
2,3,4,5,6,7,8,9,10,3982,4548,5267
STLN
13,271,934,4124,5620,6160,7045
SMN
14,15,16,17,18,485,598,3828,396 8,4164,4403,7101,7101,7335
KRFT
47,719,719,720,720,721,721,4137 ,4571,4834,5067,5170,6160,6723, 6735,7045,7237 50,219,220,1479,1528,4518,4852, 5131,5457,5458,5603,5683,5887
SPXS
Pembobotan Setelah dilakukan indexing kata kunci terhadap dokumen dengan menggunakan teknik inverted index. Setiap kata kunci tadi diberi pembobotan menggunakan rumus tf–idf. Sedangkan untuk idf didapatkan dari log (N /df), di mana N adalah nilai maksimum kemunculan suatu konversi kata kunci dalam dokumen, dan df adalah nilai kemunculan konversi kata kunci tesebut dalam dokumen. Hasil dari pembobotan tersebut kemudian disimpan ke dalam database agar bisa diproses pada tahap selanjutnya. Cuplikan hasil pembobotan untuk query “Musa Sapientum” dapat dilihat pada Tabel 6. Tabel 6 Tabel hasil pembobotan Id_doc 4366 6402 5720 3697 4077 4327 5317 1742 188 3518 4887 5317 216 ...
Weight 10.19921 10.19921 7.084925 7.084925 7.084925 7.084925 4.152387 4.152387 4.152387 4.152387 4.152387 4.152387 3.11429 ...
Query operation Hasil query yang dimasukkan oleh pengguna kemudian diproses dengan cara yang
telah diterapkan pada kata kunci. Untuk menghindari kesalahan pengetikan maka hasil query ini akan dikonversi ke dalam format double metaphone dan dibandingkan dengan hasil konversi kata kunci yang sudah ada dalam database. Setelah dibandingkan kemudian dicocokkan dengan tabel frase, yaitu kata kata yang sudah disambung menjadi frase berdasarkan dengan kata kunci yang ada pada data. Contoh pada saat memasukkan input “Musa Sp” maka akan ditampilkan frase yang sudah dicocokkan dengan metode double metaphone. “Musa Sp” memiliki kode “MS SP”. Setelah dikonversi kemudian dilakukan pencarian kata yang memiliki kesamaan kode seperti tersebut di atas. Setelah kata-kata tersebut ditemukan kemudian dilakukan pencocokan kata kata tersebut dengan tabel frase yang ada, berdasarkan tabel tersebut frase yang memiliki kesamaan adalah “Musa Sapientum”. Kata kunci yang berkaitan akan ditampilkan sebagai pilihan pengguna dalam melakukan proses temu kembali informasi. Searching Proses pencarian yaitu proses pembandingan dan penghitungan tingkat kesamaan atau kedekatan query yang dimasukkan pengguna dengan dokumen yang ada. Pada saat searching, query yang telah di konversi dibandingkan dengan kata kunci yang juga telah dikonversi dengan algoritme double metaphone. Ranking Setelah proses pencocokan dokumen, maka dokumen yang memiliki keterhubungan di urutkan berdasarkan tingkat relevansinya dengan query yang dimasukan oleh pengguna. Nilai relevansi tersebut dapat dicari dengan menggunakan rumus kosinus. Sebelum mencari nilai kosinus tersebut terlebih dahulu dihitung nilai dot product dengan rumus sbb:
x1*x2 + y1*y2 di mana x1 adalah bobot dari dokumen pertama terhadap query pertama dikali bobot dari query ditambah bobot dari dokumen berikutnya terhadap query berikutnya dikali bobot dari query berikutnya. Dengan rumus ini sudah terlihat perbedaan nilai relevansi nya. hasil perhitungan dengan contoh query ”Musa Sapientum” dapat dilihat pada Tabel 7. Setelah menghitung nilai dari dot product kemudian dilanjutkan dengan menghitung vector magnitudes, yaitu menghitung besar jarak euclidian pada setiap kata, berikut
8
merupakan magnitudes:
rumus
penghitungan
vector
Tabel 7 Hasil nilai dot product Id_doc
Dot product
6402 4366 5720 4327 4077 3697 4887 3518 5317 1742 188 4637 4498 3590 …
63.1279 63.1279 50.19616 50.19616 50.19616 50.19616 17.24232 17.24232 17.24232 17.24232 17.24232 12.93174 12.93174 12.93174 …
Dalam rumus tersebut x1 adalah nilai bobot (weight) dokumen terhadap term pertama, dan y1 adalah nilai bobot (weight) dokumen terhadap term kedua. Hasil perhitungan dengan contoh query ”musa sapientum” dapat dilihat pada Tabel 8. Tabel 8 Hasil nilai vector magnitudes Id_doc 6402 4366 5720 4327 4077 3697 4887 3518 5317 1742 188 4637 4498 …
Vm 7.739183 7.739183 7.084925 7.084925 7.084925 7.084925 4.152387 4.152387 4.152387 4.152387 4.152387 3.11429 3.11429 ...
Selanjutnya dihitung derajat kesamaan Q, D antara dokumen dan query dapat dihitung menggunakan kosinus sudut antara vektor D dan Q dengan rumus sebagai berikut:
Setelah berhasil dihitung kemudian dokumen tersebut diurutkan berdasarkan nilai kosinus tebesar. Nilai kosinus dengan contoh query ”Musa Sapientum” dapat dilihat pada Tabel 9. Tabel 9 Hasil nilai kosinus Id_Doc
Kosinus
6402 4366 4327 4077 3697 5720 4683 4637 4498 4497 3576 4887 6402 …
0.120953 0.120953 0.105058 0.105058 0.105058 0.105058 0.061573 0.061573 0.061573 0.061573 0.061573 0.061573 0.120953 …
Evaluasi sistem temu kembali informasi Evaluasi yang digunakan dalam penelitian ini adalah evaluasi untuk mengukur keefektifan konversi double metaphone dalam menemukan dokumen yang relevan terhadap query yang dimasukkan pengguna. Setelah proses pencocokan dokumen dan dokumen yang memiliki keterhubungan diurutkan berdasarkan tingkat relevansinya. Untuk kinerja sistem temu kembali informasi ini, dapat dilihat pada Tabel 10. Pada Tabel 10 nilai average recall precission memiliki nilai yang terbaik. Tabel 10 Nilai Average Recall Precission Query
(R)
(A∩R)
(A)
ARP
Musa sapientum
2
2
111
1
Oryza sativa
45
45
94
1
Aspergillus flavus Allium ascalonicum
9
9
39
1
12
12
69
1
8
8
50
1
6
6
41
1
Allium sativum Anopheles sundaicus Anopheles aconitus Fusarium oxysporum Solanum tuberosum
15
15
58
1
10
10
110
1
29
29
36
1
Capsicum annuum
14
14
16
1
9
Proses selanjutnya adalah proses pencocokan hasil temu kembali yang telah dihasilkan oleh query dengan penulisan yang benar, dan query dengan kesalahan penulisan apakah menghasilkan jawaban yang sama atau tidak. Untuk contoh hasil pencocokan dapat dilihat pada Tabel 11. Tabel 11 Hasil pencocokan query Query aspergillus flavus aspergilus flapus aspregilus flafus aspergulis falvus asperglus flapvus asgerpilus fplaus aspregilus flaps asfergilis plavus Spergilus flavs
Hasil yang ditemukan 9 9 9 9 9 0 9 0 9
aspregilius flavus aspergilus plavs
9 9
Setelah semua query dan sepuluh kombinasi kesalahan penulisan query telah diujicoba, maka dibuat persentasi rata-rata keberhasilan hasil temu kembali tersebut. Hasil total rata rata keberhasilan hasil temu kembali pada penelitian ini adalah 84%. Persentase rata-rata tersebut dapat dilihat pada Tabel 12.
1.
Dokumen yang digunakan masih banyak yang memiliki kesalahan pada pengetikan kata kunci
2.
Penggunaan metode double metaphone bermanfaat dengan catatan kesalahan penulisan yang ada tidak menyebabkan perubahan pengucapan terutama dalam perbedaan penulisan konsonan. Untuk kesalahan penulisan vokal, vokal yang tidak terletak di awal kurang berpengaruh terhadap proses pencocokan. Sedangkan untuk kesalahan penulisan karakter tertentu atau khusus, baik jumlah atau letaknya dapat diabaikan pengaruhnya dalam proses pencocokan.
3.
Kata ilmiah memiliki ciri khusus yaitu beberapa kata memiliki keterkaitan dengan kata lainnya, sehingga mempermudah dalam melakukan pencarian.
4.
Jumlah total persentase keberhasilan adalah 84% berdasarkan kombinasi kesalahan pengetikan yang telah digunakan pada penelitian ini.
Saran 1.
Karena penelitian ini hanya menggunakan 500 koleksi kata ilmiah, maka diharapkan pada penelitian selanjutnya bisa melebihi dari 500 koleksi kata ilmiah.
2.
Untuk mendapatkan hasil yang lebih baik sebaiknya dilakukan perbandingan hasil dengan algoritme phonetic string matching lainnya seperti caverphone, soundex, miracode dan lain lain.
Tabel 12 Rata-rata hasil ujicoba query beserta kombinasi kesalahan penulisan Query (Kombinasi kesalahan penulisan) musa sapientum oryza sativa aspergillus flavus allium ascalonicum allium sativum Anopheles sundaicus Anopheles aconitus fusarium oxysporum Solanum tuberosum Capsicum annuum Total
Persentase keberhasilan (%) 100 100 80 100 70 70 70 90 80 80 84
KESIMPULAN DAN SARAN Kesimpulan Berdasarkan hasil penelitian maka diambil kesimpulan bahwa penerapan algoritme double metaphone untuk pencarian nama ilmiah pada koleksi tesis perpustakaan IPB dapat mengurangi kesulitan pencarian akibat typo mistake dengan catatan sbb:
DAFTAR PUSTAKA Adisantoso J; dan Ridha A. 2004. Corpus Dokumen Teks Bahasa Indonesia Untuk Pengujian Efektifitas Temu Kembali Informasi, http://web.ipb.ac.id/~julio/webaku/isi/riset/ri set001.pdf [31 Agustus 2010] Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley. Garcia E. 2006. “An information retrieval tutorial on cosine similarity measures, dot products and term weight calculations” ,
10
http://www.miislita.com/informationretrievaltutorial/cosine-similaritytutorial.html [31 Agustus 2010] Grossman D. Information Retrieval Book. http://www.ir.iit.edu/~dagr/cs529/files/ir_b ook.html [15 Oktober 2009] Hiemstra D, Leeuwen D. van. 2001. Creating a Dutch Information Retrieval Test Corpus http://en.scientificcommons.org/43213504 [31 Agustus 2010] Kowalski G J. 1997. Information Retrieval System Theory And Implementation, Kluwer Academics Publisher. Norwell, Massachusetts. Lalmas M. 2009. XML Retrieval. Glasgow University. McEnery T, Wilson A. 2001. Corpus Linguistics 2nd Edition. Edinburgh. University Press. Phillips L. 2000. “The Double Metaphone Search Algorithm”, C/C++ Users Journal. http://www.drdobbs.com/cpp/184401251 [31 Agustus 2010]. Rahman A. 2006. Perbandingan Kinerja Beberapa Ukuran Kesamaan pada Temu Kembali Informasi Dokumen XML. Skripsi. Departemen Ilmu Komputer IPB, Bogor. Ridha A. 2000. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen. Rijsbergen C J. van. 1979. Information Retrieval, Second Edition. Butterworths, London. Salton G. 1968. A Comparison Between Manual and Automatic Indexing Methods. Technical Report No. 68-11. Department of Computer Science. Cornell University, Ithaca, N.Y.. Syaroni M, Munir R. 2004. Pencocokan String Berdasarkan Kemiripan Ucapan (Phonetic String Matching) dalam Bahasa Inggris, Bandung.
11
LAMPIRAN
12
Lampiran 1 Aturan double metaphone Huruf A,I,U,E,O,Y
Primary A
Secondary A
Keterangan Jika diawal kata
B
B P
B P
C
K
K
K S S X KS dihapus(silent)
X S X X KS dihapus(silent)
Default Di akhir kata setelah 'M' Contoh : dumb Jika dalam '-SCH-', ORCHES, ARCHIT, ORCHID, 'MC'-,CK,CG,CQ. Diikuti -HARAC,-HARIS,-HOR,-HYM,-HIA,-HEM,Setelah VAN, VON, MC, Sebelum 'L', 'R', 'N', 'M', 'B', 'H', 'F', 'V', 'W', default Jika dalam 'CHAE', Jika dalam '-CI-', '-CE-', 'CY', 'CAESAR','-SCI-', '-SCE-', '-SCY-' Jika dalam 'CZ',Diikuti '-CIA', 'CIO', 'CIE' Jika dalam 'CC' Jika dalam 'UCCEE', 'UCCES', dalam 'CC' diikuti 'I', 'E', 'H' (bukan 'HU'), Diawali A dan dalam 'CC', Jika dalam 'SCI, 'SCE', 'SCY'
D
J T TK
J T TK
Jika dalam '-DGE-', '-DGY-', 'DGI' Default Jika dalam 'DG'
F G
F K J dihapus (silent) F J N KL K
F K J dihapus (silent) F J KN L J
Jika dalam 'GH',default Jika dalam 'GH' diikuti 'I' Jika dalam 'B--GH','D--GH', '-H--GH','-H---GH' Jika dalam '-UGH' diawali 'C', 'G', 'L', 'R', 'T' Jika dalam '-GNED', '-GN', '-DGE-', '-DGI-''-DGY-' Jika diikuti '-N', Jika diikuti 'LI' Diikuti 'ES', 'EP ', 'EB ', 'EL ', 'EY ', 'IB ', 'IL ', 'IN ', 'IE ', 'EI ', 'ER', di dalam –GER,-GY, -GE
H
dihapus (silent) dihapus H H
J
J H
J H
Default Jika dalam 'JOSE'
K
dihapus (silent) K L M N F P K R X S dihapus (silent) X S X SK
dihapus (silent) K L M N F P K R X S dihapus (silent) S X SK SK
Jika sesudah 'C' Default
T
X 0 dihapus (silent) T 0
X 0 dihapus (silent) T T
Jika dalam '-TIA-', '-TION-', 'TCH', jika sebelum 'H' Jika di dalam '-TCH-' Jika diikuti 'T' Jika dalam TH diikuti 'OM', 'AM' Jika dalam 'TH','TTH'
V W
F W R A '' TS
F W R A F FX
Default Jika sesudah vokal Jika di dalam 'WR' Jika di dalam 'WH' Jika di dalam 'EWSKI', 'EWSKY', 'OWSKI', 'OWSKY','SCHW-' Jika diikuti '-WICZ', '-WITZ'
X Z
KS S J S
KS S J TS
Default Default Jika diikuti '-H' Jika diikuti 'ZO', 'ZI', 'ZA'
L M N P Q R S
(silent) Jika sesudah vokal dan tidak diikuti vokal Jika sebelum sebuah vokal dan tidak sesudah 'C', 'G', 'P', 'S', 'T '
Default Default Default Jika sebelum 'H' Default Default Default Jika di dalam '-SIA-', '-SIO-' atau sebelum 'H' Default, Jika dalam 'SCI-', 'SCE-', 'SCY-' Jika di dalam '-ISL-', '-YSL-' Jika di dalam 'Sugar', 'SC' Jika diikuti 'N', 'M', 'L', 'W', 'Z' Jika di dalam 'SCH-' diikuti 'ER', 'EN' Jika di dalam 'SCH-' diikuti 'OO', 'UY', 'ED', 'EM', Jika dalam 'SC-'
13
Lampiran 2 Alur Program
CDS (2006)
Konversi ke XML
ISIS
Parsing Kata kunci Menjadi Token Metaphone
Data Bibliografi
Konversi Double
Parsing Kata Kunci
Seleksi Kata Kunci (500 Kata dipilih secara manual)
Indexing Tabel Kata Kunci (Double Metaphone)
Hitung TF - IDF
Query
Hasil Pencarian
Lampiran 3 Hasil Query Query
(R)
(A∩R)
(A)
musa sapientum
2
2
111
musa sapintum
2
2
111
musa sapinetum
2
2
111
msa sapintum
2
2
111
musa apientum
2
2
111
msa sapinitum
2
2
111
mousa sapientum
2
2
111
mus sapientum
2
2
111
musasa sapinetum
2
2
10
mua sapienthum
2
2
18
mussa sapentum
2
2
115
oryza sativa
45
45
94
oriza satifa
45
45
94
ozyra sativa
45
45
57
oriza satyfa
45
45
94
oryza satifa
45
45
94
oriza saitfa
45
45
94
oryza satfa
45
45
94
oryza stiva
45
45
94
oryza satipa
45
45
85
14
oryja satifa
45
45
56
orza savita
45
45
91
aspergillus flavus
9
9
39
aspergilus flapus
9
9
39
aspregilus flafus
9
9
39
aspergulis falvus
9
9
39
asperglus flapvus
9
9
39
asgerpilus fplaus
0
0
26
aspregilus flaps
9
9
39
asfergilis plavus
0
0
15
Spergilus flavs
9
9
39
aspregilius flavus
9
9
39
aspergilus plavs
9
9
39
allium ascalonicum
12
12
69
allum asclonicum
12
12
69
allium asclanicum
12
12
69
allium ascalinicum
12
12
69
alium ascalcinicum
12
12
69
Alum aslaconicum
12
12
69
Allumi alsconicm
12
12
51
allim ascalinum
12
12
69
Amillu ascalcium
12
12
35
allmu alsacalonicum
12
12
51
allium sativum
8
8
50
allium satvum
8
8
50
amilu satvimu
8
8
12
amilu savitum
0
0
3
allimu sativium
8
8
50
aalium savitium
8
8
49
Amliu svatium
0
0
3
allimu sativum
8
8
50
amillu satifum
8
8
12
Allimiu sutavium
8
8
73
amiliu sapitum
0
0
3
Anopheles sundaicus
6
6
47
anopeles sundacus
6
6
8
anopheleas sundiacus
6
6
47
anoplese saundacius
0
0
8
annopheles sundacisu
6
6
47
Anoplese sanducius
0
0
8
anpeles saundacus
6
6
8
Anopelse sunducus
6
6
8
anopeles snudasius
0
0
8
15
annophels sundasicu
6
6
53
anophelse snudacius
6
6
53
Anopheles aconitus
15
15
58
anopeles akonitus
15
15
27
anopheles akonitsu
15
15
58
anopelse acontius
15
15
27
annopheles aconitsu
15
15
58
anpoheles aknoitus
15
15
27
Naopeles acontisu
15
15
33
annoselep nacoitus
0
0
3
annopehels acoitus
0
0
3
anpoheles aconsuti
0
0
1
anpeles aconitus
15
15
27
anpoeles akonitius
15
15
27
fusarium oxysporum
10
10
110
Fusarum oxysporium
10
10
110
Fusairum oxysporm
10
10
110
Fasuirum oxisporum
10
10
110
Fasrium oxypsorum
10
10
110
Pusarium oxysprum
10
10
110
Pusaruim oksiforum
0
0
0
Fusharium oxisporum
10
10
110
Fusarium osiforum
10
10
38
Fausrium oksisform
10
10
110
Pusairum oxsiporium
10
10
96
Solanum tuberosum
29
29
36
soalnum tubersum
29
29
36
sloanum tuborsum
29
29
36
solamun tubeorsum
29
29
42
salonum tuebrosum
29
29
36
saolnum turbosum
29
29
36
slaonum tubsorum
29
29
36
solanmu tubrosium
29
29
36
slonamu tubrosmu
29
29
36
somalun tubesorum
0
0
1
solamanum turberosum
0
0
13
Capsicum annuum
14
14
16
kapsikum anum
14
14
16
cpasicum anmu
14
14
16
capsium amum
0
0
1
capasicum anunum
14
14
16
casipcum anmu
14
14
14
capisicum anmum
14
14
17
16
capsicium anmun
0
0
1
Capasicum annuum
14
14
16
kapasicum amnum
14
14
16
capsikum amunum
14
14
22
17