PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA ALGORITMA SOUNDEX
Oleh : R ZAINAL ARIFIN F S G64102031
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
PERANAN SUBSTITUSI N-GRAMS DAN CODE SHIFT PADA ALGORITMA SOUNDEX
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh : R ZAINAL ARIFIN F S G64102031
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
RINGKASAN
R ZAINAL ARIFIN F S. Peranan Substitusi N-grams dan Code Shift pada Algoritma Soundex. Dibimbing oleh SRI NURDIATI dan JULIO ADISANTOSO. Ketidakjelasan akar kata akibat keterbatasan pengetahuan informasi pengguna mengenai nama ilmiah dan sifat temu-kembali nama ilmiah yang hanya memiliki dua kemungkinan hasil temukembali, yaitu ditemu-kembalikan semua atau tidak ditemu-kembalikan sama sekali, menyebabkan sistem temu-kembali kesamaan fonetik untuk nama ilmiah memiliki kinerja yang rendah. Tujuan penelitian ini adalah mengukur kinerja n-grams substitution dan code shift dalam upaya meningkatkan nilai recall dan precision algoritma Soundex. Tercakup di dalamnya proses pembentukan kamus kata nama ilmiah, identifikasi nama ilmiah dalam dokumen, dan proses perangkingan dengan menggunakan dice coefficient. Pengujian menggunakan koleksi dokumen sebanyak 849 dokumen dan 20 jenis query dengan jenis kesalahan yang berbeda. Kinerja temu-kembali dibandingkan antara tidak menggunakan substitusi n-grams dan code shift, hanya menggunakan substitusi n-grams (NS), dan menggunakan substitusi n-grams dan code shift (CS). Hasil penelitian mengungkapkan bahwa kinerja substitusi n-grams dan code shift mampu meningkatkan kinerja sistem temu-kembali kesamaan fonetik untuk nama ilmiah. Kedua teknik tersebut mampu 95% menemu-kembalikan nama ilmiah dengan contoh 20 query pengujian tersebut. Hasil penelitian juga mengungkapkan bahwa data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan code shift. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih. Kata Kunci : Temu Kembali Informasi, temu kembali nama ilmiah, Fuzzy Soundex, Soundex, code shift, substitusi n-grams, dan dice co-efficient.
Judul Nama NRP
: Peranan Substitusi N-grams dan Code Shift pada Algoritma Soundex : R Zainal Arifin F S : G64102031
Menyetujui: Pembimbing I,
Pembimbing II,
Dr. Ir. Sri Nurdiati, M.Sc NIP 131578805
Ir. Julio Adisantoso, M.Kom NIP 131578807
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Yonny Koesmaryono, MS NIP 131473999
Tanggal Lulus :
RIWAYAT HIDUP Penulis dilahirkan di Solo pada tanggal 3 Januari 1985 dari ayah H. Drs. Subandi dan ibu Hj. Dyah Farida Subandi. Penulis merupakan putra kedua dari empat bersaudara. Tahun 2002 penulis lulus dari SMU Negeri 5 Bogor dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Pada tahun 2005 Penulis menjalankan praktek lapangan di Kantor Pengembangan Sistem Informasi Institut Pertanian Bogor selama kurang lebih 2 bulan. Pada tahun 2006 Penulis berkesempatan menjadi pengembang Sistem Informasi Akademik Pasca Sarjana Institut Pertanian Bogor.
PRAKATA Alhamdulillahirabbil ‘alamin, puji syukur Penulis panjatkan ke hadirat Allah Subhanahu wa ta’ala atas segala curahan rahmat dan karunia-Nya sehingga skripsi dengan judul Peranan Substitusi N-grams dan Code Shift pada Algoritma Soundex, dapat diselesaikan. Shalawat serta salam juga Penulis sampaikan kepada junjungan kita Nabi Muhammad Shallalahu ‘alaihi wasallam beserta seluruh sahabat dan umatnya hingga akhir zaman. Penulis juga mengucapkan terima kasih kepada Ibu Dr. Ir. Sri Nurdiati, M.Sc selaku pembimbing I yang telah banyak membantu Penulis dalam menyusun skripsi ini. Terima kasih juga penulis ucapkan kepada Bapak Ir. Julio Adisantoso, M.Komp selaku pembimbing II yang telah banyak memberi saran, masukan, dan ide-ide kepada Penulis. Tanpa bimbingan dari Ibu Sri dan Bapak Julio, Penulis belum tentu mampu menyelesaikan skripsi ini dalam waktu yang relatif cepat. Penulis juga ingin mengucapkan terima kasih kepada Ibu Yeni Herdiyeni, S.Si., M.Kom selaku penguji yang telah banyak memberi saran dan masukan kepada Penulis. Selanjutnya Penulis juga ingin mengucapkan terima kasih kepada: 1.
Papa, Mama, Mas Ishal, dan my little sister Icha yang selalu memberi dukungan, doa, dan semangat kepada Penulis, sehingga Penulis dapat menyelesaikan tugas akhir ini dalam waktu yang relatif cepat.
2.
Ratna Widyaningsih, yang selalu membangkitkan semangat Penulis ketika mengalami hari-hari yang sulit dan telah membantu Penulis dalam mengumpulkan query pengujian.
3.
Fitri, Andi, Linda, Nia, Nafi, Dek Rani, yang telah bersedia meluangkan waktunya untuk membantu dalam mengumpulkan query pengujian.
4.
Mr. Dave Holmes, thank you very much for your attention. You are willing to spare your time for replying my mails. Without your help, I can’t realize how my paper will finish.
5.
Bapak Ir. Yahya Kurniawan, yang telah membantu Penulis ketika mengalami masalah penulisan coding.
6.
Teman-teman seperjuangan, Fatchur, BalQ, Sanda, Edu, Ichoy, Irfan yang telah banyak membantu Penulis pada masa perkuliahan. I’m sorry, I’m the first man.
7.
Sahabat -sahabat Ilkom angkatan 39 yang membuat Penulis cepat menghilangkan kepenatan dalam menyusun skripsi.
8.
Departemen Ilmu Komputer, staf dan dosen yang telah begitu banyak membantu baik selama penelitian maupun pada masa perkuliahan .
Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak. Semoga penelitian ini dapat memberikan manfaat.
Bogor, Juni 2006
R Zainal Arifin F S
DAFTAR ISI Halaman DAFTAR ISI ………………………………………………………………………………..... v DAFTAR TABEL ……………………………………………………………………………. vi DAFTAR GAMBAR …………………………………………………………………………. vi DAFTAR LAMPIRAN ………………………………………………………………………. vi PENDAHULUAN ...................................................................................................................... 1 Latar belakang ...................................................................................................................... 1 Tujuan ................................................................................................................................... 1 Ruang lingkup ....................................................................................................................... 1 TINJAUAN PUSTAKA ............................................................................................................. 1 Information Retrieval (Temu-Kembali Informasi) ............................................................... 1 Recall and Precision ............................................................................................................. 2 Tokenizer ............................................................................................................................... 2 Algoritma Soundex ………………………………………………………………………… 2 Algoritma Fuzzy Soundex …………………………………………………………………. 3 N-grams ………………………………………………………………………………….... 4 N-grams Substitution ……………………………………………………… ……………… 4 Code Shift …………………………………………………………………………………. 4 Dice Co-Efficient ………………………………………………………………………….. 4 Tatanama Binomial Nomenclatur …………………………………………………………. 4 METODE PENELITIAN …………………………………………………………………….. 5 Gambaran Umum Sistem Temu-Kembali Nama Ilmiah ………………………………….. 5 Parsing (Tokenizer) .............................................................................................................. 5 Parsing Kamus ..................................................................................................................... 5 Parsing Dokumen ................................................................................................................. 5 N-grams Substitution ............................................................................................................ 5 Code Shift .............................................................................................................................. 6 Pengaburan Kode ......................................... ......................................................................... 6 Perlakuan (Treatment) …………………………………………………………………….. 6 Evaluasi Recall and Precision .............................................................................................. 6 Asumsi-asumsi ...................................................................................................................... 6 Lingkungan Pengembangan .................................................................................................. 6 HASIL DAN PEMBAHASAN .................................................................................................. 6 Karakteristik Dokumen ......................................................................................................... 6 Struktur Data Pengindeksan .................................................................................................. 6 Analisis Identifikasi Nama Ilmiah ........................................................................................ 7 Query ..................................................................................................................................... 7 Substitusi N -grams ................................................................................................................ 7 Proses Pengaburan ................................................................................................................ 8 Algoritma Pencarian Dengan Dice Co-Efficient ................................................................... 8 Code Shift .............................................................................................................................. 9 Kinerja Temu-Kembali ......................................................................................................... 9 KESIMPULAN DAN SARAN .................................................................................................. 11 Kesimpulan ........................................................................................................................... 11 Saran ..................................................................................................................................... 12 DAFTAR PUSTAKA ................................................................................................................. 12
DAFTAR TABEL Halaman Tabel 1. Perbedaan data retrieval dengan information retrieval ................................................. 2 Tabel 2. Tabel pengelompokan konsonan algoritma Soundex (Repici 2006) .............................. 3 Tabel 3. Tabel pengelompokan konsonan algoritma Soundex (Primasari 1997) ......................... 3 Tabel 4. Tabel pengelompokan konsonan algoritma Fuzzy Soundex (Holmes & McCabe 2002) ............................................................................................. 3 Tabel 5. Klasifikasi kesalahan menurut Damerau ........................................................................ 4 Tabel 6. Tabel jenis N-grams yang termasuk kasus N-grams Substitution …………………….. 4 Tabel 7. Tabel kasus tambahan substitusi N -grams ……………………………………………. 8 Tabel 8. Tabel perbandingan kode Kromotoli dengan Quamoclit ............................................... 8 Tabel 9. Tabel perbandingan kode penata dengan pennata ......................................................... 9 Tabel 10. Tabel pengaruh code shift pada query Asproha brimbi ................................................ 9
DAFTAR GAMBAR Halaman Gambar 1. Gambaran umum sistem temu-kembali nama ilmiah ................................................ 5 Gambar 2. Diagram relasional struktur data pengindeksan ......................................................... 7 Gambar 3. Kurva recall-precision beberapa algoritma Soundex………..…................................ 9 Gambar 4. Kurva recall-precision beberapa algoritma Soundex (insertion dan omission ) ............................................................................................ 10 Gambar 5. Kurva recall-precision beberapa algoritma Soundex (transposition)………………. 10 Gambar 6. Kurva recall-precision beberapa algoritma Soundex (substitution) .......…………… 11
DAFTAR LAMPIRAN Halaman Lampiran 1. DFD Level-0 sistem temu-kembali nama ilmiah ………………………………… 13 Lampiran 2. DFD Level-1 sistem temu-kembali nama ilmiah .................................................... 14 Lampiran 3. DFD Level-2 sistem temu-kembali nama ilmiah .................................................... 15 Lampiran 4. Antarmuka implementasi ......................................................................................... 16 Lampiran 5. Contoh dokumen dalam koleksi .............................................................................. 19 Lampiran 6. Daftar 354 nama ilmiah dalam kamus.txt ………………………………………… 20 Lampiran 7. Daftar query yang digunakan dalam pengujian ....................................................... 29 Lampiran 8. Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus ........................................................................................................ 30
1
PENDAHULUAN Latar Belakang Nama merupakan suatu hal penting dalam sebuah sistem informasi. Nama sering digunakan sebagai kriteria pencarian dalam sistem temu-kembali informasi (information retrieval) untuk keperluan dalam bidang perpustakaan (nama pengarang), kepolisian (nama tawanan), toko buku, dan lain-lain. Sistem temu-kembali informasi yang menghasilkan sekelompok nama ilmiah, seringkali menemukan masalah untuk queryquery berkonteks bahasa natural. Ketidakjelasan akar kata akibat keterbatasan pengetahuan informasi pengguna merupakan titik masalah dari sistem tersebut. Kesalahan pengejaan dalam menuliskan query, akan mengakibatkan informasi yang dibutuhkan tidak ditemu-kembalikan. Masalah kesalahan pengejaan tersebut dapat dipecahkan dengan menggunakan algoritma-algoritma kesamaan fonetik. Di antaranya, Soundex, phoenix, Pfeifer, dan Fuzzy Soundex . Algoritma Soundex telah dikembangkan untuk query bahasa Indonesia dengan memodifikasi pengelompokan konsonan sesuai dengan kaidah bahasa Indonesia. Penelitian yang dilakukan oleh Primasari (1997) tersebut menggunakan konversi nilai biner untuk sistem perangkingannya. Ternyata data tidak berpengaruh terhadap jenis bahasa karena algoritma soundex dalam bahasa Inggris dapat bekerja dengan baik pada bahasa Indonesia. Hal ini karena bahasa Inggris dan Indonesia menggolongkan konsonannya dengan keistimewaan yang sama. Algoritma Fuzzy Soundex memiliki nilai recall dan precision yang lebih baik jika dibandingkan dengan algoritma kesamaan fonetik lainnya. Peningkatan nilai tersebut dipengaruhi oleh dua metode yang disisipkan dalam algoritma Fuzzy Soundex, yaitu subtitusi n-grams dan code shift. K edua metode tersebut mampu meningkatkan nilai recall dan precision sistem temu-kembali kesamaan fonetik. Nama ilmiah memiliki dua kemungkinan hasil temu-kembali, yaitu ditemu-kembalikan semua atau tidak ditemu-kembalikan sama sekali. Nama ilmiah sedikit berbeda dengan nama yang lainnya, dimana nama ilmiah hanya memiliki satu jenis nama, berbeda dengan nama orang yang memiliki
beberapa keseragaman. Perbedaan tersebut yang menyebabkan temu-kembali untuk query nama ilmiah sangat sensitif. Tujuan Penelitian ini bertujuan mengukur kinerja n-grams substitution dan code shift dalam upaya meningkatkan nilai recall dan precision algoritma Soundex. Ruang Lingkup Ruang lingkup penelitian ini adalah: 1.
Jenis algoritma Soundex yang digunakan dalam penelitian ini adalah Soundex, Fuzzy Soundex, dan Soundex hasil penelitian Primasari (1997).
2.
Query yang diketikkan hanya berupa nama ilmiah dari tanaman obat dengan jumlah kata sebanyak dua kata.
3.
Menganalisis kinerja n-grams substitution dan code shift.
4.
Koleksi dokumen yang digunakan adalah dokumen-dokumen yang berhubungan dengan bidang pertanian. TINJAUAN PUSTAKA
Information Informasi)
Retrieval
(Temu-Kembali
Temu-kembali informasi erat dengan representasi, penyimpanan, pengorganisasian, dan akses ke informas i. Representasi dan pengorganisasian informasi seharusnya menyediakan fasilitas kemudahan akses terhadap informasi (Baeza-Yates & RiberioNeto 1999). Sebuah sistem temu-kembali informasi tidak menginformasikan subjek dari pencariannya, melainkan yang berhubungan dengan subjek pencariannya. Tingkat keterhubungan (recall) ditentukan oleh pengguna sendiri. Berbeda dengan data retrieval (temu-kembali data), pengguna mendapatkan hasil pencarian sesuai dengan subjek pencariannya (exact match). Perbedaan antara temu-kembali informasi dengan temukembali data dapat dilihat pada Tabel 1 (Rijsbergen 1979). Pada sistem temu-kembali data, ukuran kesamaannya tepat sesuai dengan yang diinginkan, sedangkan temu-kembali informasi, ukuran kesamaannya mendekati tepat. Hal ini dikarenakan apa yang menurut
2
sistem tepat belum anggapan pengguna.
tentu
sama
dengan
Kesimpulan dari hasil sistem temukembali data menggunakan pendekatan deduktif yang sederhana (Rijsbergen 1979). Misal, aRb dan bRc maka aRc. Maksudnya, kesimpulan dari temu-kembali data dapat diramalkan. Temu-kembali informasi menggunakan pendekatan induktif, ketereratan hanya dispesifikasikan dengan derajat pasti atau ketidakpastian. Peubah (variable) merupakan hal yang paling dipercaya untuk menarik kesimpulan. Tabel 1 Perbedaan data retrieval dengan information retrieval Data retrieval
Information retrieval
Ketepatan
Exact match
Partial (best) match
Kesimpulan
Deduction
Induction
Model
Deterministic
Probabilistic
Klasifikasi
Monothetic
Polythetic
Bahasa query
Artificial
Natural
Spesifikasi bahasa
Lengkap
Tidak lengkap
Hasil
Matching
Relevant
Error response
Sensitif
Tidak sensitif
Recall and Precision Temu-kembali informasi mempunyai dua peubah untuk mengukur tingkat relevansi dari hasil yang ditemu-kembalikan. Recall merupakan peubah yang digunakan sistem temu-kembali informasi untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen relevan dalam koleksi, sedangkan precision merupakan peubah untuk membandingkan dokumen relevan yang ditemu-kembalikan dengan seluruh dokumen yang telah ditemukembalikan (Baeza-Yates & Riberio-Neto 1999). Untuk koleksi dokumen yang besar dan tidak terurut dengan baik, kedua peubah tersebut sulit digunakan. Nilai precision sangat tergantung pada keterurutan dokumen yang ditemu-kembalikan. Semakin terurut dokumen tersebut, semakin tinggi nilai precision (sama dengan satu). Tokenizer
Informasi relevan yang ditemu-kembalikan oleh sistem temu-kembali informasi belum tentu menemu-kembalikan semua informasi yang relevan dalam koleksi (probabilistic). Makna query dari temu-kembali informasi yang bersifat ambigu (polythetic) menyebabkan informasi yang relevan tidak semuanya ditemu-kembalikan. Query pada temu-kembali data hanya mempunyai satu makna (monothetic), sehingga dapat dipastikan semua informasi yang dibutuhkan ditemu-kembalikan. Spesifikasi query yang tidak lengkap karena bahasa yang natural, menyebabkan hasil yang diinginkan berbeda-beda dari setiap pengguna, sehingga respon terhadap kesalahan sangat kecil. Hal ini karena tingkat keterhubungan antara pengguna satu dengan yang lainnya tidak sama.
Tokenizer merupakan suatu algoritma untuk mendapatkan token dari suatu berkas teks (Ridha 2002). Tokenizer melakukan pemisahan terhadap isi dokumen menjadi unit yang paling kecil atau biasa disebut juga kata. Unit terkecil tersebut disebut juga sebagai token. Proses tokenizer juga melakukan pembersihan terhadap kata buang (stoplist) karena kata buang tersebut merupakan kata yang paling sering muncul dalam suatu dokumen. Sementara kata tersebut tidak berhubungan (relevant) dengan dokumen. Algoritma Soundex Soundex merupakan suatu algoritma fonetik yang digunakan untuk mengurangi kesalahan pengetikan query akibat kesalahan pengucapan. Algoritma Soundex yang asli telah dipatenkan oleh Margaret O'Dell dan Robert C. Russell pada tahun 1918. Metode yang digunakan adalah melakukan pengelompokan terhadap enam klasifikasi fonetik dari suara manusia (bilabial, labiodental, dental, alveolar, velar, dan glottal), dimana klasifikasi tersebut berdasarkan posisi bibir dan lidah untuk membuat suara (Repici 2006). Algoritma berikut:
Soundex
adalah
sebagai
3
-
Pengubahan bentuk kata menjadi kapital (Upper Case), dan semua jenis tanda baca dibuang.
-
Huruf pertama tidak diikutkan dalam konversi kode.
-
Konversi kata ke dalam kode disesuaikan dengan Tabel 2.
mampu meningkatkan nilai kesamaan (sim ilarity measure) antara dua nama jika kode yang dikaburkan semakin banyak. Jika tiap nama hanya memiliki sebuah kode Soundex, kesamaannya adalah biner, sehingga nilai kesamaannya kurang baik (Holmes Dave 9 Maret 2006, komunikasi pribadi). Tabel 3
Tabel 2 Tabel pengelompokan konsonan algoritma Soundex (Repici 2006)
Tabel pengelompokan konsonan algoritma Soundex (Primasari 1997)
Kelompok
Alfabet
Kelompok
Alfabet
A, I, U, E, O, H, W, Y
A, I, U, E, O, H, W, Y
1
B, F, P, V
1
F, V
2
C, G, J, K, Q, S, X, Z
2
S, X, Z
3
D, T
3
L
4
L
4
R
5
M, N
5
M, N
6
R
6
B, C, D, P, K, T, G, J, Q
-
Jika terdapat kode yang sama dengan kode sebelumnya, maka kode tersebut dibuang.
-
Buang semua kode ‘0’.
-
Panjang kode Soundex harus empat karakter, jika kurang dari empat karakter, maka tambahkan dengan ‘0’ di belakang kode terakhir, jika lebih dari empat karakter, maka kode yang diambil hanya empat karakter terdepan.
Pada tahun 1997, algoritma Soundex dikembangkan ke dalam bahasa Indonesia dengan mengganti pengelompokan konsonannya ke dalam faktor penyusun konsonan bahasa Indonesia. Faktor-faktor pembentuk konsonan tersebut adalah sebagai berikut (Primasari 1997):
Panjang kode dan pengelompokan konsonan pada algoritma Fuzzy Soundex berbeda dengan algoritma Soundex. Panjang kode untuk algoritma Fuzzy Soundex adalah lima karakter, karena dengan menambah panjang kode sebanyak satu karakter, kesalahan yang terdapat pada akhir nama dapat diidentifikasi. Pengelompokan terhadap 18 konsonan dapat dilihat pada Tabel 4. Tabel 4
Tabel pengelompokan konsonan algoritma Fuzzy Soundex (Holmes & McCabe 2002)
Kelompok
Alfabet
A, I, U, E, O, H, W, Y
1
B, P, F, V
1.
Faktor artikulator dan titik artikulasi.
2
C, S, Z
2.
Faktor jalan yang dilalui oleh udara.
3
D, T
3.
Faktor jenis halangan yang dijumpai tatkala udara keluar.
4
L
5
M, N
Pengelompokan konsonan pada Tabel 3 dilakukan dengan memperhatikan faktor kedua dan ketiga.
6
R
7
G ,J ,K, Q, X
Algoritma Fuzzy Soundex Fuzzy Soundex melakukan pengaburan (fuzzy) terhadap query. Maksudnya, satu query bisa menghasilkan lebih dari satu macam kode yang berbeda. Sistem temu-kembali fonetik
Algoritma Fuzzy Soundex menggunakan substitusi n-grams dan code shift dalam upaya meningkatkan nilai recall dan precision hasil temu-kembali (Holmes & McCabe 2002).
4
N-grams N-grams merupakan suatu metode yang menghitung nilai kesamaan antara n kata. Beberapa pen elitian mengenai algoritma fonetik menemukan kesalahan umum yang sama seperti pada Tabel 5 (Holmes & McCabe 2002). N-grams melakukan pemisahan per n huruf dari suatu kata. Misal untuk kata ’Cook’ dengan kata ’Cooke’ menggunakan digram seperti di baw ah ini:
fuzzy. Rumus dari Dice coefficient adalah sebagai berikut (Holmes & McCabe 2002):
δ = (2* γ ) / ( α + β ), dengan
δ γ α
adalah nilai kesamaan adalah jumlah irisan antara dua nama adalah jumlah kode pada nama 1
’Cook’ à ’_C’ , ’Co’ , ’ oo’ , ’ok’, ’k_’ ’Cooke’ à ’_C’ , ’Co’ , ’ oo’ , ’ok’, ’ke’ , ’e_’
β adalah jumlah kode pada nama 2
Dari digram di atas dapat diidentifikasi bahwa kata ‘cooke’ identik dengan ‘cook’ karena memiliki empat dari enam digram yang sama, sehingga kata ‘cooke’ diidentifikasi sebagai ‘cook’.
Tabel 6
Tabel jenis n-grams yang termasuk kasus n-grams substitution
N-grams
Substitution
CA
KA
CC, CK, CH
KK
CE
SE
CL
KL
CR
KR
CI
SI
CO
KO
CS, CZ, TS, TZ
SS
N-grams Substitution
CU
KU
Damerau mendefinisikan kesalahan pengucapan ke dalam empat kategori seperti pada Tabel 5. N-grams substitution mampu mengurangi kesalahan pengucapan seperti yang dideskripsikan oleh Damerau. Tabel 6 menggambarkan jenis n-grams yang termasuk kasus kesalahan substitusi (Holmes & McCabe 2002).
CY
SY
DG
GG
GH
HH
GN, KN, NG
NN
HR, WR
RR
HW
WW
PF, PH
FF
SCH
SSS
TIO
SIO
Tabel 5
Klasifikasi kesalahan menurut Damerau
Jenis kesalahan
Nama Asli
Kesalahan
Insertion
Averrhoa
Averrkhoa
Omission
Retrofractum
Retrofactum
Substitution
Canna
Kanna
Transposition
Phyllanthus
Pyhllanthus
Code Shift Code shift merupakan salah satu upaya untuk mengurangi jenis kesalahan Damerau insertion dan omission. Teknik ini mampu mengidentifikasi kesalahan yang terdapat pada awal nama, sedangkan untuk mengidentifikasi kesalahan pada akhir nama adalah dengan menambah panjang kode sebanyak satu karakter. Code shift mampu meningkatkan nilai recall sebesar 96 % dengan membuang karakter kedua dari lima bit kode Fuzzy Soundex (Holmes & McCabe 2002). Dice Coefficient Dice coefficient merupakan suatu formula untuk menghitung nilai kesamaan antara kode
Tatanama Binomial Nomenclatur Tatanama binomial (binomial berarti ’dua nama’) merupakan aturan penamaan baku bagi semua organisme (makhluk hidup) yang terdiri dari dua kata dari sistem taksonomi (biologi), dengan mengambil nama genus dan nama spesies (Wikipedia 2006). Nama yang dipakai adalah nama baku yang diterapkan untuk fungi, tumbuhan dan hewan oleh penyusunnya (Carolus Linnaeus), namun kemudian segera diterapkan untuk bakteri.
5
METODE PENELITIAN
1.
Karakter (.), separator lain.
Penelitian dengan tema kesamaan fonetik ini pernah dilakukan (Primasari 1997). Algoritma kesamaan fonetik yang digunakan adalah Soundex dan Phoenix, dengan data nama manusia sebagai objek penelitiannya. Dalam hal ini, algoritma yang akan digunakan pada penelitian ini adalah algoritma Soundex, Fuzzy Soundex dan Soundex hasil penelitian Primasari (1997) dengan data nama ilmiah sebagai objek penelitiannya.
2.
Karakter (,), jika diikuti karakter selain numerik.
3.
Karakter (’), jika diapit oleh karakter alphabet dan numerik.
4.
Karakter (-), jika kata sebelum karakter (-) sama dengan karakter sesudahnya.
Gambaran Umum Sistem Temu-Kembali Nama Ilmiah Secara garis besar, gambaran umum sistem temu-kembali nama ilmiah dapat dilihat pada Gambar 1. Data Flow Diagram dari sistem temu-kembali nama ilmiah dapat dilihat pada Lampiran 1, 2, dan 3. Untuk antarmuka implementasi diberikan pada Lampiran 4.
jika
diikuti
karakter
Parsing Kamus Nama-nama ilmiah dalam kamus memiliki jumlah kata yang berbeda. Oleh karena itu, diperlukan keseragaman dalam penentuan jumlah kata dalam satu nama ilmiah. Keseragaman tersebut dapat memudahkan proses pencarian, karena sistem melakukan pencarian mulai dari kata pertama. Jumlah kata dalam penelitian ini akan diseragamkan sebanyak dua kata. Beberapa alasan digunakan pengambilan dua kata adalah sebagai berikut: 1.
Kata-kata setelah kata kedua dalam nama ilmiah tidak banyak digunakan dalam dokumen-dokumen. Kata tersebut merupakan singkatan dari deskriptor yang hasil karyanya diakui (Hendrawan 2004). Contoh : Artemisia vulgaris Linn.
2.
Pengambilan dua kata mengikuti sistem penamaan binomial nomenclatur. Contoh : Averhoa bilimbi (Belimbing asam). Oryza sativa (Padi ).
3.
Penggunaan dua kata telah menjamin keunikan 354 nama ilmiah dalam kamus.
Parsing Dokumen
Gambar 1
Gambaran umum sistem temukembali nama ilmiah.
Parsing (Tokenizer) Proses parsing (tokenizer) adalah suatu proses unt uk mendapatkan kata (token) dari sekumpulan kalimat. Proses parsing melakukan pembersihan terhadap tanda baca dan karakter separator (white space). Beberapa tanda baca yang dianggap sebagai karakter separator karena suatu aturan adalah sebagai berikut:
Proses parsing dokumen terdiri dari dua tahap, yang pertama tahap parsing (tokenizer), dan yang kedua proses pembuangan kata buang. Kata-kata buang seperti nanti, nyaris, padahal, dan, dan lain-lain, dapat memboroskan ruang penyimpanan. Kata-kata buang tersebut merupakan kata-kata yang sering muncul dalam dokumen, tetapi tidak berhubungan (relevant) dengan dokumen. N-grams Substitution Jenis N-grams yang akan dilakukan dalam penelitian ini adalah digram dan trigram. Query yang melalui proses N-grams akan dilakukan pengidentifikasian untuk beberapa kasus substitusi. Misalkan untuk digram ‘PH’ dan ‘PF’ akan disubstitusi
6
dengan ‘FF’. Jenis karakter substitusi dapat dilihat pada Tabel 6. Code shift Karakter yang dibuang dari lima bit kode Fuzzy Soundex dalam penelitian ini adalah karakter ke dua. Hal ini dengan pertimbangan pengucapan yang kurang jelas seringkali di awal penyebutan nama (Holmes & McCabe 2002). Hasil temu-kembali akan dibandingkan antara menggunakan code shift dengan tidak menggunakan code shift, untuk mengetahui seberapa besar pengaruh code shift terhadap hasil temu-kembali pada algoritma Fuzzy Soundex.
laboratorium temu-kembali informasi, ditambah dengan dokumen dari situs www.iptek.net.id sebagai penyedia terbanyak dokumen tanaman obat. Asumsi-asumsi Asumsi-asumsi yang digunakan dalam penelitian ini adalah sebagai berikut: -
Nama ilmiah dalam dokumen adalah benar, sehingga identifikasi nama ilmiah tidak melewati proses Fuzzy Soundex. Proses Fuzzy Soundex hanya dilakukan ketika proses pencarian.
-
Dokumen yang dianggap berhubungan (relevant) adalah dokumen yang mengandung nama ilmiah.
Pengaburan Kode Query yang telah dikonversi ke dalam kode Fuzzy Soundex, akan dikaburkan dengan mengurangi panjang kode Fuzzy Soundex di tiap iterasinya. Misalkan query yang telah dikonversi adalah ‘A2546’, maka kode Fuzzy Soundex yang dapat dihasilkan adalah sebagai berikut (Holmes Dave 16 Maret 2006, komunikasi pribadi): -
A2546 ( fuzzy 5)
-
A254 (fuzzy 4)
-
A25 (fuzzy 3)
-
A2 (fuzzy 2)
-
A546 (code shifted)
Lingkungan Pengembangan Lingkungan pengembangan yang digunakan dalam penelitian ini adalah sebagai berikut: -
Perangkat lunak: Microsoft Windows XP Professional, Microsoft Visual Basic .Net 2003, Microsoft Office Access 2003.
-
Perangkat keras: Pentium IV 2.66 GHz, RAM 256 MB.
HASIL DAN PEMBAHASAN Karakteristik Dokumen
Perlakuan (Treatment) Tiga jenis algoritma Soundex yang akan dibandingkan mendapatkan perlakuan yang sama seperti di bawah ini: -
Proses pengaburan.
-
Panjang kode adalah 5 bit. Hal ini dilakukan untuk mengetahui seberapa besar pengaruh penambahan bit dalam mendeteksi kesalahan yang terdapat pada akhir nama.
-
Ketiga algoritma Soundex tersebut ditambahkan teknik substitusi n-grams dan code shift.
-
Algoritma perangkinganny a menggunakan dice coefficient.
dengan
Evaluasi Recall dan Precision Penentuan tingkat relevansi dokumen yang ditemu-kembalikan dilakukan secara manual terhadap 849 dokumen yang berhubungan dengan tanaman obat. Koleksi dokumen pengujian menggunakan koleksi dokumen
Koleksi dokumen yang digunakan memiliki keterkaitan erat dengan tanaman obat. Sebanyak 75 % merupakan dokumen yang berhubungan dengan tanaman obat, dan sisanya merupakan dokumen yang tidak berhubungan dengan tanaman obat. Contoh dokumen dalam koleksi dapat dilihat pada Lampiran 5. Struktur Data Pengindeksan Token-token hasil proses parsing disimpan dalam basis data untuk mempercepat proses pencarian, sehingga proses pars ing hanya dilakukan ketika penambahan dokumen baru. Tabel yang diperlukan untuk keperluan pengindeksan sebanyak empat tabel, yaitu tblTokenizer, tblIdentName, tblTemp, dan tblDokumen. Diagram relasional dari keempat tabel tersebut dapat dilihat pada Gambar 2.
7
contoh query tersebut adalah insertion. Dua puluh query pengujian tersebut dapat dilihat pada Lampiran 7. Substitusi N-Grams
Gambar 2
Diagram relasional struktur data pengindeksan.
Analisis Identifikasi Nama Ilmiah Nama ilmiah dalam dokumen yang melewati proses tokenizer, tidak teridentifikasi sebagai nama ilmiah. Proses pengidentifikasian memerlukan bantuan kamus sebagai kata pembanding. Kamus kata nama ilmiah dapat dilihat pada Lampiran 6. Proses pengidentifikasian akan melakukan pengecekan dengan membandingkan kata pertama nama-nama ilmiah dalam kamus dengan token-token hasil proses tokenizer . Jika kata ditemukan, mak a simpan posisi ditemukannya kata pertama tersebut untuk melakukan pengecekan terhadap kata keduanya sesuai dengan posisi tersebut. Jika tidak sama, maka pencarian dilanjutkan. Hal ini terjadi karena terdapat beberapa nama ilmiah yang memiliki kata depan yang sama, yaitu Averhoa carambola dan Averhoa bilimbi. Kedua nama tersebut memiliki common nameyang berbeda. Proses identifikasi nama dari 849 dokumen dalam koleksi menghasilkan 646 nama. Waktu yang dibutuhkan untuk proses tokenizer dan identifikasi nama dengan spesifikasi pengembangan di atas adalah 7 menit 11 detik. Query Query yang digunakan dalam penelitian untuk menguji sistem Fuzzy Soundex berasal dari pihak lain/mahasiswa yang tidak memahami bidang tanaman obat. Hal ini dilakukan agar pengujian dengan menggunakan query yang mengandung empat kesalahan Damerau seperti pada Tabel 5 dapat diimplementasikan. Alasan kedua menggunakan query dari pihak lain adalah pihak lain tidak mengetahui algoritma dari sistem, sehingga kesalahan query murni dari pendenga ran mereka sendiri. Pengumpulan contoh query setelah melewati proses penyaringan menghasilkan 20 query dengan jenis kesalahan yang berbeda. Rata-rata jenis kesalahan pengguna dari
Perbedaan antara substitusi n-grams dengan n-grams adalah terletak pada kondisi teks yang akan dikoreksi. N-grams akan mengkoreksi teks yang mengalami kesalahan teknis ketika pengetikan, misalnya salah menekan tombol huruf dalam papan kunci, sedangkan substitusi n-grams akan mengkoreksi alfabet yang mengalami perubahan bunyi jika bertemu dengan alfabet lain. Subsitusi n-grams sangat berpengaruh ketika kesalahan pengetikan terjadi di awal pengetikan. Kata pertama yang tidak dikonversi ke dalam kode mengakibatkan nama yang memiliki keidentikan pengucapan di awal kata dianggap merupakan kode yang berbeda. Koleus skotiolariades merupakan salah satu kesalahan pengucapan nama yang memiliki nama asli Coleus scutellarioides. Karakter ‘C’ sering diucapkan sebagai ‘K’ jika bertemu dengan huruf hidup ‘A’, ‘U’ , dan ‘O’. Kode dari Koleus dan Coleus dianggap berbeda meskipun melewati proses pengaburan (Kode fuzzy dari Koleus adalah ‘K4200’ dan Coleus adalah ‘C4200’), karena pengaburan tidak melakukan pemotongan karakter di awal kata. Substitusi n-grams melakukan penggantian karakter sesuai dengan kasuskasus penggantian pada Tabel 6. Sebelum melalui proses pengkodean, karakter ‘C’ pada nama ‘Coleus’ akan disubstitusi dengan karakter ‘K’ karena karakter ‘C’ diikuti oleh huruf hidup ‘O’. Nama ‘Coleus’ akan berubah menjadi ‘Koleus’, dimana kedua nama tersebut telah memiliki kode yang sama. Beberapa kasus substitusi n-grams di luar Tabel 6 ditemukan pada penelitian ini. Karakter seperti ‘NJ’ dan ‘Z’ + ‘huruf vokal’, pengguna sering menemui banyak kesalahan. Karakter ‘NJ’ pada nama Ficus Benjamina sering terdengar sebagai Ficus Benyamina. Kasus tambahan subtitusi N-grams dapat dilihat pada Tabel 7.
8
Tabel 7
Tabel kasus tambahan substitusi ngrams
N-grams
Substitusi
NJ
NY
Z + ‘A, I, U, E, O’
J + ‘A, I, U, E, O’
Proses Pengaburan Pengaburan query dan token dari dokumen yang akan dilakukan adalah melakukan pemotongan panjang kode di tiap iterasinya, ditambah dengan code shift. Pengaburan dilakukan terhadap kedua kata dari nama ilmiah, sehingga akan menghasilkan 10 jenis query. Sebagai ilustrasi, misalkan terdapat query ‘Averhoa bilimbi’, maka pengaburan yang akan dilakukan adalah sebagai berikut: -
A1600 B4510
(fuzzy 5)
-
A160
B451
(fuzzy 4)
-
A16
B45
(fuzzy 3)
-
A1
B4
(fuzzy 2)
-
A600
B510
(code shifted)
Pengaburan token dari dokumen tidak dilakukan bersamaan dengan query. Pengaburan token tersebut dilakukan ketika proses pencarian dengan Dice Coefficient. Hal ini dilakukan untuk menghemat memori, karena akan banyak sekali hasil pengaburan token dari dokumen. Algoritma Coefficient
Pencarian
Dengan
Dice
Hasil dari pengaburan query dan token dalam dokumen akan dibandingkan untuk mencari intersection nya. Algoritma dari proses matching ini adalah sebagai berikut: 1.
Untuk semua token kata pertama nama ilmiah dari dokumen.
2.
Hitung nilai Dice coefficientnya, diceCoef(token1, token2).
3.
Jika nilai Dice coefficient ≠ 0, maka simpan ID dokumennya dengan nilai Dice coefficientnya.
A lgoritma Dice coefficient , diceCoef(token1, token2)
3.
Untuk semua fuzzy query kata pertama.
4.
Untuk semua fuzzyToken kata pertama.
5.
Jika fuzzyQuery1 = fuzzyToken1, maka tambahkan nilai common dengan 1.
6.
Untuk semua fuzzyQuery kata kedua.
7.
Untuk semua fuzzyToken kata kedua.
8.
Jika fuzzyQuery2 = fuzzyToken2, maka tambahkan nilai common dengan 1.
9.
Hitung nilai dice rumus:
coefficient
dengan
dCoef = (2*common) / ((fQuery1.length*2) + (fToken1.length*2)) 10. Kembalikan nilai dCoef (return dCoef). Jika terdapat kesalahan yang jauh pada pengetikan kata pertama, sementara kesalahan pada pengetikan kata kedua tidak terlalu jauh, sistem ini masih mampu menemukembalikannya. Misalkan untuk query Kromotoli penata (Quamoclit pennata), kode dari Kromotoli dan Quamoclit berbeda cukup jauh. Tabel 8
Tabel perbandingan kode Kromotoli dengan Quamoclit
Kromotoli
Quamoclit
K6534
K5243
K653
K524
K65
K52
K6
K5
K534
K243
Pada Tabel 8 terlihat jelas bahwa kedua kode tidak memiliki kesamaan meskipun ditambahkan code shift, sedangkan kode untuk kata penata (dengan nama asli pennata) memiliki kesamaan yang sangat dekat (pada Tabel 9). Nilai common merupakan gabungan dari intersection dari kata pertama dengan kata kedua. Meskipun nilai common kata pertama adalah 0, nilai common kata kedua sangat tinggi, yaitu 5, sehingga nilai Dice Coefficientnya adalah sebagai berikut: dCoef
= (2*(0+5)) / ((5*2)+(5*2))
1.
Lakukan pengaburan terhadap token1 dan token 2.
= 10 / 20
2.
Inisialisasi nilai common = 0.
= 0.5
9
Algoritma tetap akan menyimpan ID dari dokumen dan nilai dCoef karena nilai dCoef lebih dari 0, sehingga dokumen yang berhubungan dengan kata pennata tetap ditemu-kembalikan. Tabel 9 Tabel perbandingan kode penata dengan pennata pennata
P5300
P5300
P530
P530
P53
P53
P5
P5
P300
P300
Untuk mengetahui pengaruh substitusi ngrams dan code shift dalam meningkatkan nilai recall dan precision algoritma Soundex, hasil temu-kembali dibandingkan antara tidak menggunakan substitusi n-grams dan code shift, hanya menggunakan substitusi n-grams (NS), dan menggunakan substitusi n-grams dan code shift (CS). Nilai precision untuk tiap titik recall yang telah diinterpolasi sebanyak 11 titik secara rinci diberikan pada Lampiran 8. Fuzzy Soundex
Precision
penata
Kinerja Temu-Kembali
Code Shift
0.20
0.40
F-Sdx
F-Sdx (NS)
0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.00
0.20
Fuzzy 5
A2160 B6510
A1600 B4510
Fuzzy 4
A216
B651
A160 B451
Fuzzy 3
A21
B65
A16
B45
Fuzzy 2
A2
B6
A1
B4
code shift
A160
B510
A600
B510
1.00
F-Sdx (CS)
0.40
0.60
0.80
1.00
Recall P-Sdx
Averrhoa bilimbi
0.80
Soundex Primasari (1997)
Tabel 10 Tabel pengaruh code shift pada query Asproha brimbi Asproha brimbi
0.60
Recall
Precision
Algoritma code shift memiliki pengaruh yang besar terhadap sistem temu-kembali kesamaan fonetik untuk jenis kesalahan insertion dan omission. Nama Asproha brimbi (dengan nama asli Averrhoa bilimbi ), memiliki nilai recall dan precision 0 ketika tidak menggunakan code shift, dengan jumlah nama yang ditemu-kembalikan sebanyak 21 nama. Hasil yang jauh berbeda ditunjukkan ketika menggunakan code shift, dimana semua dokumen yang berhubungan berhasil ditemukembalikan.
0.88 0.8 0.72 0.64 0.56 0.48 0.4 0.00
P-Sdx (NS)
P-Sdx (CS)
Soundex
Precision
0.9 0.82 0.74 0.66 0.58 0.5 0.00
0.20
0.40
0.60
0.80
1.00
Recall
Tabel 10 menunjukkan bahwa query Asproha brimbi berhasil ditemu-kembalikan karena kode Asproha pada code shift sama dengan kode Averrhoa pada fuzzy 4. Kasus serupa juga terdapat pada kode brimbi ketika menggunakan code shift dengan kode bilimbi ketika menggunakan code shift.
Sdx
Gambar 3
Sdx (NS)
Sdx (CS)
Kurva recall-precision beberapa algoritma Soundex.
Kurva recall-precision pada Gambar 3 membuktikan bahwa substitusi n-grams dan code shift mampu meningkatkan nilai recall dan precision ketiga algoritma Soundex. Ratarata peningkatan nilai recall dan precision dari
10
Peningkatan nilai recall dan precision dari ketiga algoritma Soundex tersebut dipengaruhi oleh kemampuan substitusi ngrams dan code shift dalam menangani jenis kesalahan insertion, omission, dan transposition . Penambahan kedua algoritma tersebut ke ketiga algoritma Soundex mampu meningkatkan nilai recall dan precision untuk jenis kesalahan insertion dan omission (Gambar 4) rata-rata sebesar 30%.
tersebut pada algoritma Soundex hasil penelitian Primasari (1997) mampu memberikan kinerja yang lebih baik untuk jenis kesalahan ini. Hal ini dapat dilihat pada kurva recall-precision algoritma Soundex Primasari (1997) yang hampir mencapai nilai maksimum. Fuzzy Soundex
Precision
ketiga algoritma Soundex tersebut ketika ditambahkan substitusi n-grams dan code shift adalah sebesar 20%.
Fuzzy Soundex
0.95 0.83 0.70 0.58 0.45 0.33 0.20 0.00
0.20
0.40
Precision
1.00
0.60
0.80
1.00
Recall
0.83
F-Sdx
F-Sdx (NS)
F-Sdx (CS)
0.65 0.48 Soundex Primasari (1997)
0.30 0.00
0.20
0.40
0.60
0.80
1.00
1.00
F-Sdx
F-Sdx (NS)
Precision
Recall F-Sdx (CS)
0.80 0.60 0.40 0.20
Soundex Primasari (1997)
0.00 0.00
0.20
0.40
Precision
1.00
0.80
1.00
0.83
P-Sdx
0.65
P-Sdx (NS)
P-Sdx (CS)
0.48 0.30 0.00
Soundex
0.20
0.40
0.60
0.80
1.00
Recall P-Sdx (NS)
P-Sdx (CS)
Precision
P-Sdx
Soundex
1.00 Precision
0.60
Recall
0.95 0.83 0.70 0.58 0.45 0.33 0.20 0.00
0.20
0.40
0.60
0.80
1.00
Recall
0.83 Sdx
0.65
Sdx (NS)
Sdx (CS)
0.48 0.30 0.00
0.20
0.40
0.60
0.80
1.00
Gambar 5 Kurva recall-precision beberapa algoritma Soundex (transposition).
Recall Sdx
Gambar 4
Sdx (NS)
Sdx (CS)
Kurva recall-precision beberapa algoritma Soundex (insertion dan omission ).
Untuk jenis kesalahan transposisi, ratarata peningkatannya mampu mencapai 40% (Gambar 5). Penambahan kedua teknik
Penambahan kedua teknik tersebut ke dalam algoritma Soundex hasil penelitian Primasari (1997) tidak begitu berpengaruh pada jenis kesalahan substitusi. Algoritma Soundex hasil penelitian Primasari (1997) telah mampu mencapai nilai maksimum ketika belum ditambahkan kedua teknik tersebut. Pengaruh dari penambahan substitusi n-grams
11
dan code shift adalah mampu menjaga kurva tetap stabil pada nilai maksimum (Gambar 6). Fuzzy Soundex
Precision
1.00 0.92 0.84 0.76 0.68 0.60 0.00
0.20
0.40
0.60
0.80
1.00
Recall F-Sdx
F-Sdx (NS)
F-Sdx (CS)
‘A’, ‘U’, dan ‘O’, dan akan berubah bunyi menjadi alfabet ‘S’ ketika bertemu hurufhuruf vokal ‘I’ dan ‘E’. Pada algoritma Fuzzy Soundex alfabet ‘C’ dan ‘K’ berbeda kelompok, sementara kedua algoritma lainnya satu kelompok, dan pada algoritma Soundex hasil penelitian Primasari (1997) alfabet ‘C’ dan ‘S’ berbeda kelompok, sementara kedua algoritma lainnya satu kelompok. Kinerja algoritma Soundex hasil penelitian Primasari (1997) mengalami peningkatan pada penelitian ini. Hal ini disebabkan oleh beberapa kemungkinan seperti di bawah ini: -
Proses pengaburan mampu meningkatkan jumlah kemungkinan nama yang berhubungan untuk ditemu-kembalikan.
-
Penambahan teknik substitusi n-grams dan code shift serta penambahan panjang kode sebanyak 1 bit.
-
Algoritma perangkingan yang digunakan adalah dice coefficient . Pada penelitian Primasari (1997), algoritma perangkingan yang digunakan adalah konversi nilai biner.
Soundex Primasari (1997)
Precision
1.00 0.90 0.80 0.70 0.60 0.50 0.00
0.20
0.40
0.60
0.80
1.00
Recall P-Sdx
P-Sdx (NS)
P-Sdx (CS)
Precision
Soundex
1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.00
0.20
0.40
0.60
0.80
1.00
Recall Sdx
Sdx (NS)
Sdx (CS)
Gambar 6 Kurva recall -precision beberapa algoritma Soundex (substitution). Gambar 3 juga mampu membuktikan bahwa data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan code shift, karena nilai maks imum yang mampu dicapai ketiga kurva tersebut tidak jauh berbeda satu sama lain. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih. Sebagai contoh alfabet ‘C’. Alfabet ‘C’ cenderung akan berubah bunyi menjadi alfabet ‘K’ ketika bertemu dengan huruf -huruf vokal
Kinerja substitusi n-grams dan code shift dalam algoritma Soundex yang baik, dapat dimanfaatkan oleh perpustakaan Fakultas Pertanian Institut Pertanian Bogor atau perpustakaan pusat Institut Pertanian Bogor dalam memperbaiki sistem pencarian dengan query nama ilmiah. Kesalahan dalam pengetikan nama ilmiah, baik sedikit maupun banyak, dapat mengakibatkan informasi yang relevant tidak ditemu-kembalikan. Situasi sistem pencarian tersebut dapat menghambat mahasiswa dalam mencari informasi yang diinginkan, sementara tidak banyak mahasiswa yang paham betul mengenai nama ilmiah dari suatu spesies tertentu. Salah satu sebab utamanya adalah pelafalan nama ilmiah yang sulit. Mahasiswa yang baru mengenal nama ilmiah untuk spesies tertentu akan mengalami banyak kesalahan dalam melafalkan atau mengetikkannya. KESIMPULAN DAN SARAN Kesimpulan Penambahan subtitusi n-grams dan code shift ke dalam algoritma Soundex terbukti mampu meningkatkan nilai recall dan precision sistem temu-kembali nama ilmiah.
12
Dari 20 query yang diujikan, penambahan kedua teknik tersebut mampu mengembalikan 95% nama ilmiah yang diujikan dengan jenis kesalahan yang berbeda-beda. Data tidak berpengaruh terhadap bahasa ketika ditambahkan substitusi n-grams dan code shift. Hal ini karena substitusi n-grams melakukan penyeragaman terhadap perubahan bunyi akibat pertemuan antara dua alfabet atau lebih ke dalam satu alfabet atau lebih. Sistem temu-kembali nama ilmiah dengan penambahan substitusi n-grams dan code shift ke dalam algoritma Soundex, dapat diterapkan di sistem pencarian perpustakaan Fakultas Pertanian IPB atau perpustakaan pusat IPB. Kedua perpustakaan tersebut memiliki kekurangan apabila query nama ilmiah yang diketikkan tidak sesuai dengan data dalam basis data. Saran Kesalahan teknis yang disebab kan oleh pengguna seperti salah menekan tombol pada papan kunci, tidak mampu ditangani oleh sistem ini. Penelitian selanjutnya dapat ditambahkan teknik pengkoreksian n-grams sebelum query dikonversi ke dalam kode Soundex. Sistem yang dikembangkan hanya mampu menemu-kembalikan dokumen yang berhubungan dengan nama yang diketikkan. Dokumen yang hanya memiliki common name tidak mampu ditemu-kembalikan. Ada beberapa metode yang bisa digunakan di antaranya adjacency, within list, SVD, dan lain-lain. Sistem pencar ian belum mampu menemukembalikan dengan cepat jika hasil yang ditemu-kembalikan dalam jumlah besar. Penelitian selanjutnya dapat dilakukan pencarian dengan sistem paralel untuk koleksi dokumen dalam jumlah yang sangat besar.
DAFTAR PUSTAKA Baeza-Yat es Ricardo, Riberio-Neto Berthier. 1999. Modern Information Retrieval. New York: Addison-Wesley. Hendrawan Kiki. 2004. Cara Klasifikasi dan Tata Nama. http://clearinghouse.dikmenum.go.id/sho wContent.php?id=192&idCont=Bpn&Su bjectID=21&mnMode=mnBp [21 Maret 2006]. Holmes David, Catherine McCabe M. 2002. Improving Precision and Recall for Soundex Retrieval. Las Vegas. http://ir.iit.edu/publications/downloads/IE EESoundexV5.pdf [12 Juni 2005]. Primasari Dewi. 1997. Metode Pencarian dan Temu-Kembali Nama Berdasarkan Kesamaan Fonetik. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Repici Dominic John. 2006. Soundex Algorithms Explained. http://www.creativyst.com/Doc/Articles/S oundEx1/SoundEx1.htm#Algorithm [14 Juni 2005]. Ridha Ahmad. 2002. Pengindeksan Otomatis Dengan Istilah Tunggal Untuk Dokumen Berbahasa Indonesia. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Van Rijsbergen C. J. 1979. Information Retrieval. http://www.dcs.gla.ac.uk/ Keith/Preface.html [25 Juni 2005]. Wikipedia. 2006. Tatanama Binomial. http://id.wikipedia.org/wiki/Tatanama_bi nomial [21 Maret 2006].
13
LAMPIRAN
13
Lampiran 1 DFD Level-0 sistem temu-kembali nama ilmiah
14
Lampiran 2 DFD Level-1 sistem temu-kembali nama ilmiah
15
Lampiran 3 DFD Level-2 sistem temu-kembali nama ilmiah dari pengelolaan dokumen dan query
16
Lampiran 4 Antarmuka implementasi
17
Lanjutan Lampiran 4 Antarmuka implementasi
18
Lanjutan Lampiran 4 Antarmuka implementasi
19
Lampiran 5 Contoh dokumen dalam koleksi
<TITLE> Jarak Bali (Jatropha podagrica Hook.) Sinonim : Familia : Euphorbiaceae Uraian : Tanaman ini dapat ditemukan sebagai tanaman hias, yang ditanam di pekarangan atau tempat rekreasi. Asalnya, dari Amerika tropis. Perdu tegak, tinggi 0,5- 1,5 m, bergetah warna putih, batang tunggal atau sedikit bercabang, dengan pangkal batang yang membesar dan melembung seperti umbi. Daun bertangkai yang panjangnya 20-30 cm, helai daun bangun perisai, bentuknya bulat telur melebar dengan ukuran penampang 20-40 cm, bercangap 3 atau 5, taju runcing atau membulat. Bunga dalam malai rata yang bertangkai panjang, dengan bunga betina dan bunga jantan dalam satu tangkai, warnanya merah oranye. Buah bentuk elips melebar, berkendaga tiga, panjang 1,5 cm. Biji lonjong atau bulat panjang. Nama Lokal : Jarak batang gajah.; Penyakit Yang Dapat Diobati : Demam, bengkak terpukul, digigit ular biasa.; Pemanfaatan : BAGIAN YANG DIPAKAI: Seluruh tanaman KEGUNAAN: - Demam - Bengkak terpukul - Digigit ular berbisa
PEMAKAIAN: Untuk minum: 10-15 g direbus. Ampasnya digunakan untuk ditempelkan pada tempat yang sakit.
20
Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
Nama asli ABRUS PRECATORIUS, LINN ABUTILON INDICUM (L.) SWEET ACALYPHA AUSTRALIS LINN ACALYPHA INDICA ACANTHUS ILICIFOLIUS LINN ACHYRANTHES ASPERA LINN ACORUS CALAMUS L AGERATUM CONYZOIDES AGLAIA ODORATA LOUR ALEURITES MELUCCANA ALLAMANDA CATHARTICA ALLIUM AMPELOPRASUM ALLIUM CEPA ALLIUM SATIVUM, LINN ALLIUM TUBEROSUM ALOE VERA LINN ALPINIA GALANGA, LINN., WILLD ALPINIA PURPURATA K SCHUM ALSTONIA SCHOLARIS [L.] R. BR ALYXIA REINWARDITI AMARANTHUS SPINOUSUS, LINN AMOMUM CARDAMOMUM WILD AMOMUM COMPACTUM SOLAND EX MATON ANACARDIUM OCCIDENTALE, LINN ANANAS CUMOSUS L. MERR ANDROGRAPHIS PANICULATA NESS ANDROPOGON CITRATUS ANDROPOGON SORGHUM ANNONA MURICATA ANNONA RETICULATA L ANTHURIUM SPP ANTIDESMA BUNIUS (L.) SPRENG APIUM GRAVEOLENS, LINN ARACHIS HYPOGAEA ARECA CATECHU L ARENGA PINNATA, MERR ARTEMISIA VULGARIS LINN ARTOCARPUS CHAPEDEN ARTOCARPUS EROPHYLLUS ARTOCARPUS HETEROPHYLLA UNK ARTOCARPUS INTEGRA MERR. (THUMB.)
Nama depan ABRUS ABUTILON ACALYPHA ACALYPHA ACANTHUS ACHYRANTHES ACORUS AGERATUM AGLAIA ALEURITES ALLAMANDA ALLIUM ALLIUM ALLIUM ALLIUM ALOE ALPINIA ALPINIA ALSTONIA ALYXIA AMARANTHUS AMOMUM
Nama belakang PRECATORIUS INDICUM AUSTRALIS INDICA ILICIFOLIUS ASPERA CALAMUS CONYZOIDES ODORATA MELUCCANA CATHARTICA AMPELOPRASUM CEPA SATIVUM TUBEROSUM VERA GALANGA PURPURATA SCHOLARIS REINWARDITI SPINOUSUS CARDAMOMUM
AMOMUM
COMPACTUM
ANACARDIUM ANANAS
OCCIDENTALE CUMOSUS
ANDROGRAPHIS ANDROPOGON ANDROPOGON ANNONA ANNONA ANTHURIUM ANTIDESMA APIUM ARACHIS ARECA ARENGA ARTEMISIA ARTOCARPUS ARTOCARPUS
PANICULATA CITRATUS SORGHUM MURICATA RETICULATA SPP BUNIUS GRAVEOLENS HYPOGAEA CATECHU PINNATA VULGARIS CHAPEDEN EROPHYLLUS
ARTOCARPUS
HETEROPHYLLA
ARTOCARPUS
INTEGRA
21
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
72 73 74 75 76 77 78 79 80 81 82
Nama asli ASPARAGUS COCHINCHINENESIS (LOUR.) MERR AVERHOA BILIMBI AVERHOA CARAMBOLA AVERRHOA BILIMBI L AXONOPUS COMPRESSUS AZADIRACHTA INDICA JUSS AZOLLA PINNATA BAMBUSA SP BARLERIA CRISTATA L BARLERIA LUPULINA LINDL BARLERIA PRIONITIS L BARSSICA JUNCEA BASELLA RUBRA LINN BATATAS EDULIS CHOIS BIXA ORELLANA BLETILLA STRIATA (THUNB.) REICHB.F BLUMEA BALSAMIFERA (L.) DC BLUMEODENDRON KURZII BOCHMEREA NIVEA BOESENBERGIA PANDUREATA ROXB BOUGAINVILLEA SPECTABILIS BRASSICA OLERACEA BRUCEA JAVANICA (L) MERR CAESALPIA SAPPAN L CAESALPINIA SAPPAN CAJANUS CAJAN [LINN.] MILLSP CALOPHYLLUM INOPHYLLUM L CALOTROPIS GIGANTEAN CAMELLIA SINENSIS [L.] KUNTZE CAMELLIA SINENSIS L CANANGIUM ODORATUM, (LAMK.), HOOK DAN THORMS. (LAT) CANNA INDICA LINN CAPISCUM FRUTESCENS CAPSICUM SP CARICA PAPAYA, LINN CARNICIA MANGOSTANA L CASSIA ALATA, LINN CASSIA FISTULA L CASSIA TORA LINN CATHARANTUS ROSEUS (L.) G. DON CEIBA PENTANDRA L. GAERTN
Nama depan
Nama belakang
ASPARAGUS AVERHOA AVERHOA AVERRHOA AXONOPUS AZADIRACHTA AZOLLA BAMBUSA BARLERIA BARLERIA BARLERIA BARSSICA BASELLA BATATAS BIXA
COCHINCHINENESIS BILIMBI CARAMBOLA BILIMBI COMPRESSUS INDICA PINNATA SP CRISTATA LUPULINA PRIONITIS JUNCEA RUBRA EDULIS ORELLANA
BLETILLA BLUMEA BLUMEODENDRON BOCHMEREA
STRIATA BALSAMIFERA KURZII NIVEA
BOESENBERGIA BOUGAINVILLEA BRASSICA BRUCEA CAESALPIA CAESALPINIA CAJANUS CALOPHYLLUM CALOTROPIS CAMELLIA CAMELLIA
PANDUREATA SPECTABILIS OLERACEA JAVANICA SAPPAN SAPPAN CAJAN INOPHYLLUM GIGANTEAN SINENSIS SINENSIS
CANANGIUM CANNA CAPISCUM CAPSICUM CARICA CARNICIA CASSIA CASSIA CASSIA
ODORATUM INDICA FRUTESCENS SP PAPAYA MANGOSTANA ALATA FISTULA TORA
CATHARANTUS CEIBA
ROSEUS PENTANDRA
22
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123
Nama asli CELOSIA ARGENTEA LINN CENTELLA ASIATICA, (LINN), URB CHRYSANTHEMUM MORIFOLIUM RAM CHRYSOMELA SCRIPTA CINNAMOMUM BURMANI CINNAMOMUM CASSIA PRESL CINNAMOMUM SINTOK BI CITRUS AURANTIFOLIA, SWINGLE CITRUS MAXIMA CITRUS NOBILIS CLEOME SPINOSA L CLERODENDRON SERRATURE [L.] SPR CLERODENDRUM THOMSONAE BALFF CLERODENTRUM CALAMITOSUM L COCOS NUCIFERA, LINN COFFEA SP COIX LACHRYMA-JOBIL COLEUS AMBOINICUS, LOUR COLEUS AROMATICUS BENTH COLEUS ATROPURPUREUS L COLEUS SCUTELLARIOIDES, LINN,BENTH COLOCASIA ESCULENTA CONVOLVULUS BATATAS L CORIANDRUM SATIVUM L CRINUM ASIATICUM CROTALARIA JUNCEA CUCUMIS SATIVUS L CUCURBITA PEPO CUMINUM CYMINUM, LINN CURCUBITA MOSCHATA DUCH CURCUMA ACRUGINOSSA CURCUMA AEROGINOSA ROXB CURCUMA ALBAL L CURCUMA DOMESTICA VAL CURCUMA HEYNEANA VAL. & V CURCUMA LONGA LINN CURCUMA XANTHOMIZHA ROZB CURCUMA XANTHORRHIZA, ROXB CURCUMA ZEDOARIA CYCLEA BARBATA CYLEA BARBATA, MIERS
Nama depan CELOSIA CENTELLA
Nama belakang ARGENTEA ASIATICA
CHRYSANTHEMUM CHRYSOMELA CINNAMOMUM CINNAMOMUM CINNAMOMUM CITRUS CITRUS CITRUS CLEOME
MORIFOLIUM SCRIPTA BURMANI CASSIA SINTOK AURANTIFOLIA MAXIMA NOBILIS SPINOSA
CLERODENDRON
SERRATURE
CLERODENDRUM
THOMSONAE
CLERODENTRUM COCOS COFFEA COIX COLEUS COLEUS COLEUS
CALAMITOSUM NUCIFERA SP LACHRYMA-JOBIL AMBOINICUS AROMATICUS ATROPURPUREUS
COLEUS COLOCASIA CONVOLVULUS CORIANDRUM CRINUM CROTALARIA CUCUMIS CUCURBITA CUMINUM CURCUBITA CURCUMA CURCUMA CURCUMA CURCUMA CURCUMA CURCUMA CURCUMA CURCUMA CURCUMA CYCLEA CYLEA
SCUTELLARIOIDES ESCULENTA BATATAS SATIVUM ASIATICUM JUNCEA SATIVUS PEPO CYMINUM MOSCHATA ACRUGINOSSA AEROGINOSA ALBAL DOMESTICA HEYNEANA LONGA XANTHOMIZHA XANTHORRHIZA ZEDOARIA BARBATA BARBATA
23
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164
Nama asli CYMBOPOGAN NARDUS L. REANDLE CYMBOPOGON CITRATUS CYPERUS ALTERNIFOLIUS CYPERUS PAPYRUS CYPERUS ROTUNDUS DATURA METEL, LINN DAUCUS CAROTA, LINN DESMODIUM TRIQUETRUM [L.] D.C DIOSCOREA SPP DIPTEROCARPUS SP DOLICHOS LABLAB DURIO ZIBETHINUS DYSOXYLUM EXCELSUM ECLIPTA ALBA (L.) HASSK ELEPHANTOPUS SCABER L EPIPHYLLUM ANGULIGER EQUISETUM DEBILE ROXB ERCHORMIA CRASSIPES ERECHTITES VALERIANNIFOLIA ERVATAMIA DIVARICATA (L.) BURK ERYTHRINA HYPOPHORUS ERYTHRINA ORIENTALIS EUGENIA CUMINI EUGENIA POLYANTHA EUPATORIUM TRIPLINERVE VAHL EUPHARBIA TIRUCALLI L EUPHORBIA ANTIQUORUM L EUPHORBIA HIRTA, LINN EUPHORBIA MILII CH.DES MOULINS EUPHORBIA PUICHERRIMA WILLD. ET KLOTZSCH EUPHORBIA THYMIFOLIA LINN EURYCOMA LONGIFOLIA EVODIAA SUAVEOLENS EXCOECARIA COCHINCHINENSIS LOUR FEDERIA FOETIDAL FICUS BENYAMINA L FOENICULUM VULGARE MILL GANODERMA LUCIDUM (LEYSS.EX FR.) KARST GARDENIA AUGUSTA, MERR GARDENIA JASMINOIDES ELLIS GLOCHIDION MOLLE
Nama depan
Nama belakang
CYMBOPOGAN CYMBOPOGON CYPERUS CYPERUS CYPERUS DATURA DAUCUS
NARDUS CITRATUS ALTERNIFOLIUS PAPYRUS ROTUNDUS METEL CAROTA
DESMODIUM DIOSCOREA DIPTEROCARPUS DOLICHOS DURIO DYSOXYLUM ECLIPTA ELEPHANTOPUS EPIPHYLLUM EQUISETUM ERCHORMIA ERECHTITES
TRIQUETRUM SPP SP LABLAB ZIBETHINUS EXCELSUM ALBA SCABER ANGULIGER DEBILE CRASSIPES VALERIANNIFOLIA
ERVATAMIA ERYTHRINA ERYTHRINA EUGENIA EUGENIA EUPATORIUM EUPHARBIA EUPHORBIA EUPHORBIA
DIVARICATA HYPOPHORUS ORIENTALIS CUMINI POLYANTHA TRIPLINERVE TIRUCALLI ANTIQUORUM HIRTA
EUPHORBIA
MILII
EUPHORBIA EUPHORBIA EURYCOMA EVODIAA
PUICHERRIMA THYMIFOLIA LONGIFOLIA SUAVEOLENS
EXCOECARIA FEDERIA FICUS FOENICULUM
COCHINCHINENSIS FOETIDAL BENYAMINA VULGARE
GANODERMA GARDENIA GARDENIA GLOCHIDION
LUCIDUM AUGUSTA JASMINOIDES MOLLE
24
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207
Nama asli GLYCINE MAX, (LINN.) MERRILL GLYCYRRHIZA GLABRA L GOMPHRENA GLOBOSE LINN GOSSYPIUM SP GRAPTOPHYLLUM PICTUM, (LINN), GRIFF GUAZOMA ULMIFOLIA LAMK GYNURA PROCUMBENS GYNURA PSEUDO-CHINA GYNURA SEGETUM (LOUR.) MERR HEDYOTIS CORYMBOSA (L.] LAMK HEDYOTIS DIFFUSA HELIANTHUS ANNUUS LINN HELIOTHIS ARMIGERA HELIOTROPIUM INDICUM L HEMIGRAPHIS COLORATA HIBISCUS SCHIZOPETALUS (MAST.) HOOK. F HIBISCUS TILIACEUS HISBISCUS MUTABILIS HYDROCOTYLE SIBTHORPIOIDES LAM IMPATIENS BALSAMINA LINN IMPERATA CYLINDRICAL IPOMEA AQUATICA SP IPOMOEA BATATAS PIR IPOMOEA PES-CAPRAE (L.) SWEET IXORA STRICTER ROXB JASMINUM PUBESCENS JASMINUM SAMBAC, AIT JATROPHA GOSSYPIFOLIA L JATROPHA PODAGRICA HOOK JUSTICIA GENDARUSSA BURM. F KAEMPFERIA GALANGA, LINN KALANCHOE PINNATA (LAM.) PER LACTUCA SATIVA LAGERSTROEMIA SPECIOSA AUCT LAMINARIA JAPONICA LANTANA CAMARA LINN LASIUM DOMESTICUM LAWSONIA INERMIS LEONURUS SIBIRICUS L LEUCAENA LEUCOCEPHALA, LMK. DE WIT LEUCAS LAVANDULIFOLIA SMITH LITSEA GLUTINOSA (LOUR) C.D LORANTHUS, SPEC. DIV
Nama depan GLYCINE GLYCYRRHIZA GOMPHRENA GOSSYPIUM
Nama belakang MAX GLABRA GLOBOSE SP
GRAPTOPHYLLUM GUAZOMA GYNURA GYNURA GYNURA HEDYOTIS HEDYOTIS HELIANTHUS HELIOTHIS HELIOTROPIUM HEMIGRAPHIS
PICTUM ULMIFOLIA PROCUMBENS PSEUDO-CHINA SEGETUM CORYMBOSA DIFFUSA ANNUUS ARMIGERA INDICUM COLORATA
HIBISCUS HIBISCUS HISBISCUS
SCHIZOPETALUS TILIACEUS MUTABILIS
HYDROCOTYLE IMPATIENS IMPERATA IPOMEA IPOMOEA IPOMOEA IXORA JASMINUM JASMINUM JATROPHA JATROPHA JUSTICIA KAEMPFERIA KALANCHOE LACTUCA LAGERSTROEMIA LAMINARIA LANTANA LASIUM LAWSONIA LEONURUS
SIBTHORPIOIDES BALSAMINA CYLINDRICAL AQUATICA BATATAS PES-CAPRAE STRICTER PUBESCENS SAMBAC GOSSYPIFOLIA PODAGRICA GENDARUSSA GALANGA PINNATA SATIVA SPECIOSA JAPONICA CAMARA DOMESTICUM INERMIS SIBIRICUS LEUCOCEPHALA
LEUCAENA LEUCAS LITSEA LORANTHUS
LAVANDULIFOLIA GLUTINOSA SPEC
25
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251
Nama asli LSOTOMA LONGIFLORA PRESI LUFFA ACUTANGULA L. ROXB MANGIFERA INDICA MANIHOT ESCULENTA, CRAUTZ MANIHOT UTILISSIMA POHL. MARANTA ARUNDINACEA L. MASSOIO AROMATICA MEIALEUCA LEUCADENDRA L MELASTOMA CANDIDUM D. DON MELATOMA CANDIDUM D. DON MELIA AZE DARACHTA MENTHA ARVENSIS MERREMIA MAMMOSA (LOUR.) HALL.F MICHELIA CHAMPACA MIMOSA PUDICA LINN MIMUSOPS ELENGI L MIRABILISJALAPA LINN MOMORDICA CHARANTIA L MORINDA CITRIFOLIA, LINN MORINGA OLEIFERA, LAMK MORUS ALBA L MURRAYA PANICULATA [L..] JACK MUSA BRACHYCARPA BACK MUSA PARADISIACA, LINN MUSSAENDA PUBESCENS MYRISTICA FRAGRANS HOUFF NASTURTIUM MONTANUM WALL NASTURTIUM OFFICINALE L. R. BR NELUMBIUM NELUMBO DRUCE NEPHELIUM LAPPACEUM NERIUM OLEANDER NIGELLA SATIVA NOTHOPANAX SCUTELLARIUM MERR NYCTANTHES ARBOR-TRISTIS L NYMPHAEA LOTUS L NYMPHAEA TETRAGONA GEORGI OCIMUM BASILICUM L OLDENLANDIA CORYMBOSA OPUNTIA DILENII HAW ORIADRUM SATIVUM ORTHOSIPHON ARISTATUS (B1) MIQ ORTHOSIPHON STAMINEU S BENTH ORYZA, SATIVA L OXALIS CORNICULATA LINN
Nama depan LSOTOMA LUFFA MANGIFERA MANIHOT MANIHOT MARANTA MASSOIO MEIALEUC A MELASTOMA MELATOMA MELIA MENTHA
Nama belakang LONGIFLORA ACUTANGULA INDICA ESCULENTA UTILISSIMA ARUNDINACEA AROMATICA LEUCADENDRA CANDIDUM CANDIDUM AZE ARVENSIS
MERREMIA MICHELIA MIMOSA MIMUSOPS MIRABILISJALAPA MOMORDICA MORINDA MORINGA MORUS MURRAYA MUSA MUSA MUSSAENDA MYRISTICA NASTURTIUM NASTURTIUM NELUMBIUM NEPHELIUM NERIUM NIGELLA
MAMMOSA CHAMPACA PUDICA ELENGI LINN CHARANTIA CITRIFOLIA OLEIFERA ALBA PANICULATA BRACHYCARPA PARADISIACA PUBESCENS FRAGRANS MONTANUM OFFICINALE NELUMBO LAPPACEUM OLEANDER SATIVA
NOTHOPANAX NYCTANTHES NYMPHAEA NYMPHAEA OCIMUM OLDENLANDIA OPUNTIA ORIADRUM
SCUTELLARIUM ARBOR-TRISTIS LOTUS TETRAGON A BASILICUM CORYMBOSA DILENII SATIVUM
ORTHOSIPHON
ARISTATUS
ORTHOSIPHON ORYZA OXALIS
STAMINEUS SATIVA CORNICULATA
26
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292
Nama asli OXALIS REPEN PACHYRRHIZUS EROSUS L. EX PAEDERIA SCANDENS (LOUR.) MERR PALTYCERIUM CORONARIUM, (KUNING), DESV PANDANUS AMARYLLIFOLIUS ROXB PANGIUM EDULE PARKIA ROXBURGHII PERISTROPHE ROXBURGHIANA PERSEA AMERICANA PERSEA GRATISSIMA GAERTN PETIVERIA ALLIACEA PHASEOLUS RADIATUS L PHASEOLUS VULGARIS L PHYLANTHUS URINARIA, LINN PHYLLANTHUS ACIDUS [L.] SKEELS PHYLLANTHUS NIRURI PHYSALIS ANGULATA PHYSAL IS PERUVIANA, LINN PIMPINELLA JAVANICA PIPER BETLE, LINN PIPER CUBEBAE PIPER NIGRUM L PIPER RETROFRACTUM VAHL PISONIA ALBA SPAN PLANTAGO MAYOR L PLECTRANTHUS AMBOINICUS PLUCHEA INDICA (L.) LESS PLUMBAGO ZEYLANICA L PLUMERIA ACUMINATA PLUMERIA RUBRA L.CV. ACUTIFOLIA POGOSTEMON CABLIN (BLANCO) BENTH POLYGALA GLOMERATA POLYGONUM CHINENSE POPULUS DELTOIDES XP NIGRA PORTULACA OLERACEA PREMNA ODORATA BLANCO PRISTIA STRATIOTES PSIDIUM GUAJAVA, LINN PTEROCARPUS INDICUS WILLD PUNICA GRANATUM L PYRUS MALUS, LINN
Nama depan OXALIS PACHYRRHIZUS
Nama belakang REPEN EROSUS
PAEDERIA
SCANDENS
PALTYCERIUM
CORONARIUM
PANDANUS PANGIUM PARKIA PERISTROPHE PERSEA PERSEA PETIVERIA PHASEOLUS PHASEOLUS PHYLANTHUS
AMARYLLIFOLIUS EDULE ROXBURGHII ROXBURGHIANA AMERICANA GRATISSIMA ALLIACEA RADIATUS VULGARIS URINARIA
PHYLLANTHUS PHYLLANTHUS PHYSALIS PHYSALIS PIMPINELLA PIPER PIPER PIPER PIPER PISONIA PLANTAGO PLECTRANTHUS PLUCHEA PLUMBAGO PLUMERIA
ACIDUS NIRURI ANGULATA PERUVIANA JAVANICA BETLE CUBEBAE NIGRUM RETROFRACTUM ALBA MAYOR AMBOINICUS INDICA ZEYLANICA ACUMINATA
PLUMERIA
RUBRA
POGOSTEMON POLYGALA POLYGONUM POPULUS PORTULACA PREMNA PRISTIA PSIDIUM PTEROCARPUS PUNICA PYRUS
CABLIN GLOMERATA CHINENSE DELTOIDES OLERACEA ODORATA STRATIOTES GUAJAVA INDICUS GRANATUM MALUS
27
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330
Nama asli QUAMOCLIT PENNATA (DESR.) BOJ QUISQUALIS INDICA RAFFLESIA SPP RAPHANUS SATIVUS LINN RAUVOLFIA SERPENTINE [L.] BENTHAM EX. KU RAUWOLFIA SERPENTINA RHEUM OFFCINALE BAILL RHOEO DISCOLOR (L.HER.) HANCE RICINUS COMMUNIS LINN RODENT TUBER RUTA ANGUSTIFOLIA [L.] PERS RUTA GRAVEOLENS L SACHARUM OFFICINARUM, LINN SALVIA SPIENDENS KER-GAWL SAMBUCUS JAVANICA REINW SAUROPUS ANDROGYNUS MERR SELAGINELLA DOEDERLEINII HIERON SESBANIA GRANDIFLORA (L.) PERS SESBANIA SESBAN MERR SIDA ROMBOFOLIA SMILAX CHINA L SOLANUM LYCOPERSICUM SONCHUS ARVENSIS L SPONDIAS DULCIA STACHYTARPHETA JAMAICENSIS (L) VAHL STACHYTARPHETA MUTABILIS, VAHL STROBILANTHES CRISPUS BL STYRAX BENZOIN DRYAND SWIETENIA MAHAGONI JACQ SYMPHYTUM OFFICINALE L. EM SYZYGIUM AROMATICUM, (LINN.) MERR SYZYGIUM MALACCENCIS SYZYGIUM POLYANTHUM (WIGHT.) WALP TACCA PALMATA TAGETES ERECTA L TAGETES SP TALINUM PANICULATUM (JACQ) GAERTN TALINUM TRIANGUIARE (JACQ.) WILID
Nama depan
Nama belakang
QUAMOCLIT QUISQUALIS RAFFLESIA RAPHANUS
PENNATA INDICA SPP SATIVUS
RAUVOLFIA RAUWOLFIA RHEUM
SERPENTINE SERPENTINA OFFCINALE
RHOEO RICINUS RODENT RUTA RUTA SACHARUM SALVIA SAMBUCUS SAUROPUS
DISCOLOR COMMUNIS TUBER ANGUSTIFOLIA GRAVEOLENS OFFICINARUM SPIENDENS JAVANICA ANDROGYNUS
SELAGINELLA
DOEDERLEINII
SESBANIA SESBANIA SIDA SMILAX SOLANUM SONCHUS SPONDIAS
GRANDIFLORA SESBAN ROMBOFOLIA CHINA LYCOPERSICUM ARVENSIS DULCIA
STACHYTARPHETA
JAMAICENSIS
STACHYTARPHETA STROBILANTHES STYRAX SWIETENIA SYMPHYTUM
MUTABILIS CRISPUS BENZOIN MAHAGONI OFFICINALE
SYZYGIUM SYZYGIUM
AROMATICUM MALACCENCIS
SYZYGIUM TACCA TAGETES TAGETES
POLYANTHUM PALMATA ERECTA SP
TALINUM
PANICULATUM
TALINUM
TRIANGUIARE
28
Lanjutan Lampiran 6 Daftar 354 nama ilmiah dalam kamus.txt No. 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354
Nama asli TAMARINDUS INDICA TARAXACUM MONGOLICUM HANDMAZZ TECTONA GRANDIS L.F TERMINALIA CATTAPA L THEA SINENSIS L TINOSPORA CRISPA (L.) MIERS.HEN JIN T TUBIFO RA MUSICA TYPHA ANGUSTIFOLIA UNCARIA GAMBIR (HUNTER) R URENA LOBATA LINN VEMONIA CINEREA VERBENA OFFICINALIS VERNONIA CINEREA (L.) LESS VIGNA SINENSIS VITEX NEGUNDO L VITEX PENNATA VITEX TRIFOLIA L WOODFORDIA FLORIBUNDA SALISB ZEPHYRANTHES CANDIDA HERB ZINGIBER AROMATICA VAHL ZINGIBER OFFICINALE ZINGIBER PURPUREUM ROXB ZINGIBER ZERUMBET ZINNIA ELEGANS JACQ
Nama depan TAMARINDUS
Nama belakang INDICA
TARAXACUM TECTONA TERMINALIA THEA
MONGOLICUM GRANDIS CATTAPA SINENSIS
TINOSPORA TUBIFORA TYPHA UNCARIA URENA VEMONIA VERBENA VERNONIA VIGNA VITEX VITEX VITEX
CRISPA MUSICA ANGUSTIFOLIA GAMBIR LOBATA CINEREA OFFICINALIS CINEREA SINENSIS NEGUNDO PENNATA TRIFOLIA
WOODFORDIA ZEPHYRANTHES ZINGIBER ZINGIBER ZINGIBER ZINGIBER ZINNIA
FLORIBUNDA CANDIDA AROMATICA OFFICINALE PURPUREUM ZERUMBET ELEGANS
29
Lampiran 7 Daftar query yang digunakan dalam pengujian
Nama asli Averrhoa bilimbi Oryza sativa Averrhoa bilimbi Averrhoa bilimbi Averrhoa bilimbi Stachytarpheta mutabilis Desmodium triquetrum Averrhoa bilimbi Hedyotis corymbosa Stachytarpheta mutabilis Abrus precatorius Zingiber officionale Daucus carota Zingiber officionale Abrus precatorius Stachytarpheta mutabilis Hedyotis corymbosa Oryza sativa Hedyotis corymbosa Averrhoa bilimbi Hedyotis corymbosa
Query pengujian Asproha brimbi Obriza shativa Averoha bilingdi Hoterhoa bilimbi Hataroha belundi Stratistavetra notabilis Drasmodium tichoetrum Aroveha brimbi Hoqiotis coremboza Straseta mubilis Arus pekatorius Zigiber kondisional Daukus Karota Jingiber ofishionale Agrus precaproterius Stasitarveta mutabilis Hedyotis korimbosa Orija satifa heydotis korimsoba Aroveha brimbi Hebiotis kombirosa
Klasifikasi kesalahan Insertion Insertion Insertion Insertion Insertion Insertion Insertion Omission Omission Omission Omission Omission Substitution Subs titution Substitution Substitution Substitution Substitution Transposition Transposition Transposition
30
Lampiran 8 Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus
Biasa R P 0 0.45 0.1 0.44 0.2 0.43 0.3 0.43 0.4 0.43 0.5 0.43 0.6 0.43 0.7 0.42 0.8 0.41 0.9 0.41 1 0.41
Keterangan : NS
= N-grams substitution
CS
= Code shift
R
= Recall
P
= Precision
Fuzzy Soundex NS R P 0 0.46 0.1 0.46 0.2 0.44 0.3 0.42 0.4 0.42 0.5 0.42 0.6 0.41 0.7 0.41 0.8 0.39 0.9 0.38 1 0.37
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.81 0.81 0.78 0.74 0.74 0.74 0.73 0.73 0.72 0.67 0.67
Kategori Kesalahan Insertion dan Omission Soundex Primasari (1997) Biasa NS CS R P R P R P 0 0.51 0 0.47 0 0.76 0.1 0.51 0.1 0.47 0.1 0.76 0.2 0.51 0.2 0.47 0.2 0.76 0.3 0.47 0.3 0.43 0.3 0.76 0.4 0.47 0.4 0.42 0.4 0.76 0.5 0.47 0.5 0.42 0.5 0.76 0.6 0.47 0.6 0.42 0.6 0.75 0.7 0.46 0.7 0.42 0.7 0.75 0.8 0.46 0.8 0.42 0.8 0.71 0.9 0.46 0.9 0.42 0.9 0.67 1 0.46 1 0.41 1 0.67
Biasa R P 0 0.50 0.1 0.47 0.2 0.47 0.3 0.47 0.4 0.46 0.5 0.43 0.6 0.42 0.7 0.42 0.8 0.41 0.9 0.40 1 0.40
Soundex NS R P 0 0.46 0.1 0.46 0.2 0.46 0.3 0.43 0.4 0.41 0.5 0.41 0.6 0.41 0.7 0.40 0.8 0.40 0.9 0.39 1 0.38
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.79 0.79 0.79 0.78 0.78 0.78 0.77 0.75 0.75 0.74 0.70
31
Lanjutan Lampiran 8 Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus
Biasa R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.80 0.80 0.80 0.72 0.72 0.72 0.72 0.72 0.72 0.71 0.70
Keterangan : NS
= N-grams substitution
CS
= Code shift
R
= Recall
P
= Precision
Fuzzy Soundex NS R P 0 1 0.1 1 0.2 1 0.3 0.97 0.4 0.95 0.5 0.95 0.6 0.95 0.7 0.95 0.8 0.95 0.9 0.95 1 0.93
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 1 1 1 1 1 1 1 1 1 1 0.98
Kategori Kesalahan Substitution Soundex Primasari (1997) Biasa NS CS R P R P R 0 1 0 1 0 0.1 1 0.1 1 0.1 0.2 0.98 0.2 1 0.2 0.3 0.97 0.3 1 0.3 0.4 0.97 0.4 1 0.4 0.5 0.97 0.5 1 0.5 0.6 0.94 0.6 1 0.6 0.7 0.92 0.7 1 0.7 0.8 0.90 0.8 1 0.8 0.9 0.90 0.9 1 0.9 1 0.89 1 1 1
P 1 1 1 1 1 1 1 1 1 1 1
Biasa R P 0 0.88 0.1 0.88 0.2 0.88 0.3 0.86 0.4 0.86 0.5 0.86 0.6 0.86 0.7 0.86 0.8 0.86 0.9 0.84 1 0.84
Soundex NS R P 0 0.9 0.1 0.9 0.2 0.9 0.3 0.9 0.4 0.9 0.5 0.9 0.6 0.9 0.7 0.9 0.8 0.9 0.9 0.9 1 0.9
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.95 0.95 0.95 0.95 0.95 0.94 0.94 0.94 0.94 0.94 0.94
32
Lanjutan Lampiran 8 Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus
Biasa R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.27 0.24 0.24
Keteranga n : NS
= N-grams substitution
CS
= Code shift
R
= Recall
P
= Precision
Fuzzy Soundex NS R P 0 0.33 0.1 0.33 0.2 0.33 0.3 0.33 0.4 0.33 0.5 0.33 0.6 0.33 0.7 0.33 0.8 0.33 0.9 0.33 1 0.33
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.71 0.71 0.71 0.71 0.71 0.71 0.71 0.70 0.70 0.54 0.54
Kategori Kesalahan Transposition Soundex Primasari (1997) Biasa NS CS R P R P R 0 0.60 0 0.67 0 0.1 0.60 0.1 0.67 0.1 0.2 0.60 0.2 0.67 0.2 0.3 0.60 0.3 0.52 0.3 0.4 0.49 0.4 0.52 0.4 0.5 0.49 0.5 0.52 0.5 0.6 0.49 0.6 0.52 0.6 0.7 0.49 0.7 0.52 0.7 0.8 0.49 0.8 0.52 0.8 0.9 0.44 0.9 0.52 0.9 1 0.44 1 0.52 1
P 0.96 0.96 0.96 0.96 0.96 0.96 0.96 0.96 0.80 0.80 0.80
Biasa R P 0 0.27 0.1 0.27 0.2 0.27 0.3 0.27 0.4 0.27 0.5 0.27 0.6 0.27 0.7 0.27 0.8 0.27 0.9 0.24 1 0.24
Soundex NS R P 0 0.33 0.1 0.33 0.2 0.33 0.3 0.33 0.4 0.33 0.5 0.33 0.6 0.33 0.7 0.33 0.8 0.33 0.9 0.33 1 0.33
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.70 0.70 0.67 0.54
33
Lanjutan Lampiran 8 Nilai rata-rata recall-precision sistem temu-kembali nama ilmiah untuk beberapa kasus
Biasa R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.55 0.55 0.55 0.53 0.53 0.53 0.53 0.53 0.53 0.52 0.52
Keterangan : NS
= N-grams substitution
CS
= Code shift
R
= Recall
P
= Precision
Fuzzy Soundex NS R P 0 0.62 0.1 0.62 0.2 0.62 0.3 0.61 0.4 0.61 0.5 0.61 0.6 0.61 0.7 0.61 0.8 0.61 0.9 0.61 1 0.61
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.84
Overall Soundex Primasari (1997) Bias a NS CS R P R P R 0 0.69 0 0.68 0 0.1 0.69 0.1 0.68 0.1 0.2 0.69 0.2 0.68 0.2 0.3 0.66 0.3 0.64 0.3 0.4 0.65 0.4 0.63 0.4 0.5 0.65 0.5 0.63 0.5 0.6 0.64 0.6 0.63 0.6 0.7 0.63 0.7 0.63 0.7 0.8 0.62 0.8 0.63 0.8 0.9 0.61 0.9 0.63 0.9 1 0.61 1 0.63 1
P 0.86 0.86 0.86 0.86 0.86 0.86 0.85 0.85 0.83 0.80 0.80
Biasa R P 0 0.61 0.1 0.59 0.2 0.59 0.3 0.57 0.4 0.57 0.5 0.56 0.6 0.56 0.7 0.56 0.8 0.54 0.9 0.53 1 0.53
Soundex NS R P 0 0.59 0.1 0.59 0.2 0.59 0.3 0.58 0.4 0.57 0.5 0.57 0.6 0.57 0.7 0.56 0.8 0.56 0.9 0.55 1 0.55
CS R 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
P 0.82 0.82 0.82 0.82 0.82 0.81 0.81 0.79 0.79 0.78 0.76