PENGEMBANGAN SISTEM KOREKSI FRASA BAHASA INDONESIA BERBASIS KONTEKS
EKA YULIANI SIMANJUNTAK
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
PENGEMBANGAN SISTEM KOREKSI FRASA BAHASA INDONESIA BERBASIS KONTEKS
EKA YULIANI SIMANJUNTAK
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
ABSTRACT EKA YULIANI SIMANJUNTAK. Development of Indonesian Spelling Phrase System Based on Context. Under Direction of SONY HARTONO WIJAYA and SRI NURDIATI. This research proposes a new method, phrase pair together with opportunity value to give a proposed word as a correction result. Conditional probability formula is used to determine the value of opportunities of each phrase pair. Formation of phrase in this study is determined among words that are in a sentence and considered to have similar contexts. The corpus used consist of 2000 documents originating from the Laboratory of Information Retrieval, Department Computer Science, Bogor Agricultural University. Processing of document produces 90,077 pairs of phrases together with the opportunity values. Testing of this correction system uses two types of queries (common query and specific query) and two type of errors (context error and Damerau error). The context based correction system is appropriate to implement on the type of specific query. Accuracy values produced by system are 60% on spesific query and 56.67% on spesific query with context error and Damerau error. Restriction of system by giving 10 proposed words causing there is a correct proposed word but which is not included in 10 proposed words. The solution is by increasing the proposed word produced by the system. In common query, the system has poor performance. The poor accuracy emerges due to the lack of method in determination of correcting word, there are pair phrases that have high opportunity value but do not have similar context and are not included in Big Dictionary of Indonesian (KBBI) and there are pair phrases that have similar context but have low opportunity value. Keywords: spelling correction, conditional probability, phrases formation.
3
Judul Nama NIM
: Pengembangan Sistem Koreksi Frasa Bahasa Indonesia Berbasis Konteks : Eka Yuliani Simanjuntak : G64062767
Menyetujui: Pembimbing I,
Pembimbing II,
Sony Hartono Wijaya, S.Kom, M.Kom NIP 19810809 200812 1 002
Dr. Ir. Sri Nurdiati, M.Sc. NIP 19601126 198601 2 001
Mengetahui: Ketua Departemen Ilmu Komputer,
Dr. Ir. Sri Nurdiati, M.Sc. NIP 19601126 198601 2 001
Tanggal Lulus:
i
PRAKATA Segala puji syukur dan hormat hanya bagi Tuhan Yang Maha Kuasa atas kasih dan penyertaanNya sehingga penulis berhasil menyelesaikan tugas akhir ini dengan judul Pengembangan Sistem Koreksi Frasa Bahasa Indonesia Berbasis Konteks. Penulis menyadari bahwa penyelesaian tugas akhir ini tidak akan terwujud tanpa bantuan berbagai pihak: 1.
2.
3. 4. 5. 6. 7. 8.
Orang tua tercinta KM. Simanjuntak dan T. Manurung, ketiga adikku tersayang Dedy Christian S., Try Mariance S., dan Gita Febrina S., serta segenap keluarga besar, terima kasih atas doa, kasih dan dukungannya. Bapak Sony Hartono Wijaya, S.Kom, M.Kom, dan Ibu Dr. Ir. Sri Nurdiati, M.Sc., selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini. Bapak Ahmad Ridha, S.Kom, M.S. dan serta seluruh staf Departemen Ilmu Komputer FMIPA IPB. Teman-teman satu bimbingan Kartina, Hendrex, Wildan, Rio, Awet, Maryam, dan Sri atas masukan dan kebersamaannya selama penyelesaian tugas akhir ini. Sahabat-sahabatku Nurafifah, Lies Umi Kulsum dan Eli Mulyati dan seluruh teman Ilkomerz 43. Terima kasih atas motivasi dan kebersamaannya selama ini. Teman-teman di Perwira 43, ka Rio, Molly, ka Japet dan lain-lain. Saudaraku dalam kelompok kecil, ka Ina, Yessy dan ka Noviyanti. Terima kasih atas bantuan dan doanya selama ini. Sahabat-sahabatku Eko, Corry, Sandro, Mada, Riferson, Okto, dan teman-teman KPS’43 PMK IPB atas keceriannya selama ini. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, Maret 2011
Eka Yuliani Simanjuntak
ii
RIWAYAT HIDUP Penulis dilahirkan pada tanggal 05 Juli 1988 di Medan Sumatra Utara sebagai anak pertama dari empat bersaudara dari pasangan KM. Simanjuntak dan T. Manurung. Tahun 2006 penulis lulus dari SMA Negeri 5 Medan. Pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor (IPB) melalui jalur USMI. Pada tahun 2007, penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) IPB. Pada tahun 2009, penulis melaksanakan kegiatan Praktik Kerja Lapangan (PKL) di Departemen Sosial Republik Indonesia (RI) selama 35 hari. Selama perkuliahan penulis juga aktif sebagai Koordinator Tim Pengajar Agama Kristen SMA Negeri 5 Bogor KPS PMK IPB (2007-2009) dan asisten Mata Kuliah Agama Kristen IPB (2010).
iii
DAFTAR ISI Halaman DAFTAR GAMBAR ........................................................................................................................... v DAFTAR TABEL ............................................................................................................................... v DAFTAR LAMPIRAN........................................................................................................................ v PENDAHULUAN Latar Belakang ......................................................................... …………………….………………1 Tujuan .............................................................................................................................................. 1 Ruang Lingkup ................................................................................................................................ 1 Manfaat ............................................................................................................................................ 1 TINJAUAN PUSTAKA Kesalahan dan Koreksi Ejaan .......................................................................................................... 2 Koreksi Ejaan Konteks Sensitif ....................................................................................................... 2 Baseline ........................................................................................................................................... 2 Context Words ................................................................................................................................. 3 Collocations ..................................................................................................................................... 3 Trigram ............................................................................................................................................ 3 Frasa ................................................................................................................................................ 3 METODE PENELITIAN Pengumpulan Dokumen ................................................................................................................... 4 Pemrosesan Offline .......................................................................................................................... 4 Pembuatan Sistem ............................................................................................................................ 4 Pengujian dan Evaluasi Sistem ........................................................................................................ 5 Lingkungan Pengembangan ............................................................................................................. 5 HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian ........................................................................................................... 5 Pemrosesan Dokumen...................................................................................................................... 5 Pembentukan Frasa .......................................................................................................................... 6 Perhitungan Nilai Peluang ............................................................................................................... 6 Split Kueri ........................................................................................................................................ 7 Periksa pada Kamus Frasa ............................................................................................................... 7 Pencarian Kata Usulan ..................................................................................................................... 8 Pengujian Sistem ............................................................................................................................. 9 Evaluasi Sistem ................................................................................................................................ 9 Antarmuka Sistem ......................................................................................................................... 11 KESIMPULAN DAN SARAN Kesimpulan .................................................................................................................................... 11 Saran .............................................................................................................................................. 11 DAFTAR PUSTAKA ........................................................................................................................ 12 LAMPIRAN ...................................................................................................................................... 13
iv
DAFTAR GAMBAR 1 2 3 4 5 6 7
Halaman
Metodologi penelitian ................................................................................................................ 4 Alur pemrosesan dokumen atau pemrosesan offline (Kartina 2010) ......................................... 4 Alur pembuatan sistem .............................................................................................................. 4 Proses pembentukan frasa.......................................................................................................... 6 Histogram sebaran nilai peluang pembentukan frasa ................................................................ 7 Grafik hasil koreksi sistem. ....................................................................................................... 9 Antarmuka sistem. ................................................................................................................... 11
DAFTAR TABEL Halaman 1 2 3 4 5 6 7
Deskripsi dokumen pengujian ................................................................................................... 5 Contoh 15 Confusion set dan jumlah pada data latih ................................................................. 5 Nilai peluang pasangan frasa ..................................................................................................... 7 Hasil pengujian sistem ............................................................................................................... 9 Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks………..…………………………………………………………....10 Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki arti dalam KBBI ………………………………………………………………………………….10 Contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil …………………………………………………………………………………………..10
DAFTAR LAMPIRAN Halaman 1 2 3 4
Contoh dokumen pengujian ..................................................................................................... 14 Contoh kueri ............................................................................................................................ 15 Daftar hasil usulan koreksi pada kueri ..................................................................................... 17 Program pembuatan sistem ...................................................................................................... 25
v
PENDAHULUAN Latar Belakang Kebutuhan informasi menjadi hal yang penting dalam kehidupan saat ini. Keakuratan kata kunci atau kueri dapat secara signifikan mempengaruhi hasil proses pencarian informasi. Oleh sebab itu, pengguna mesin pencari menyadari bahwa kueri sangat penting dalam proses menemukan dokumen yang relevan. Kenyataannya bahwa pengguna sering memasukkan kueri yang salah yang mungkin disebabkan oleh kesalahan dalam proses pengetikan atau ketidakpahaman terhadap kueri yang dimasukkan. Beberapa mesin pencari menawarkan beberapa kemudahan yang dapat dinikmati pengguna. Kesalahan sintaksis sering ditemukan dalam tulisan Bahasa Indonesia dalam kehidupan sehari-hari seperti pada media cetak yaitu koran dan majalah dan juga pada media elektronik seperti dalam warta berita TV atau radio dan dapat ditemukan juga pada penulisan kueri. Kesalahan sintaksis ini perlu diperhatikan karena akan mempengaruhi proses pencarian informasi pada mesin pencari. Penelitian mengenai pengoreksian dari aspek sintaks belum berkembang pesat. Aspek sintaks dari sebuah bahasa meliputi frasa, klause dan kalimat. Permasalahan ini sudah mendapat perhatian sejak tahun 1990. Beberapa metode yang muncul untuk mengatasi masalah ini antara lain, Bayesian hybrids (Golding 1995), kombinasi Trigram dan Bayesian hybrids (Golding & Schabes 1996), analisis semantic latent (Jones & Martin 1997) dan tata bahasa diferensial (Powers 1997). Zamora et al. (1981) menggunakan analisis trigram dalam mendeteksi ejaan yang salah. Hasil dari analisis ini adalah memberikan tanda kepada ejaan kata yang salah. Analisis trigram ini diaplikasikan pada sebuah sistem, dimana sistem tersebut akan memeriksa kueri yang dimasukkan sesuai atau tidak dengan kamus yang ada kemudian menunjukkan posisi huruf yang salah kemudian hasil keluarannya adalah bahwa sistem pencarian tidak ditemukan. Sutisna (2009) telah melakukan pengoreksian ejaan berbahasa Indonesia menggunakan algoritme Damerau Levenshtein serta membandingkan sistem pencarian menggunakan algoritme Damerau Levenshtein dengan sistem pencarian yang
tidak menggunakan algoritme Damerau Levenshtein. Hasil perbandingan menunjukkan bahwa penggunaan algoritme Damerau Levenshtein belum cukup efisien. Hal itu terlihat dari hasil kerja algoritme tersebut belum memberikan hasil yang lebih baik dibandingkan sistem pencari yang tidak menggunakannya. Penelitian ini merupakan pengembangan dari penelitian Sutisna (2009) yang menggunakan rumus peluang bersyarat dalam menentukan nilai peluang dari setiap pasangan frasa yang akan digunakan dalam proses pencarian kata usulan. Pasangan frasa tersebut diasumsikan dapat mewakili kesamaan antar konteks. Analisis konteks diperlukan dalam memberikan kata-kata usulan sebagai hasil koreksi dari kata yang salah, dimana adanya beberapa kata yang memiliki kesamaan dalam hal tulisan tetapi berbeda arti dan konteksnya. Pengembangan sistem koreksi frasa berbasis konteks ini diarahkan pada tata bahasa bukan pada kesalahan pengetikan. Pengembangan sistem koreksi frasa berbasis konteks ini dilakukan dengan menggunakan nilai peluang dari pasangan frasa, hasil penelitian Kartina (2010) terhadap kueri sebagai acuan dalam pengoreksian dan pemberian kata usulan yang diharapkan akan menghasilkan kata usulan yang lebih optimal. Tujuan Tujuan utama dari penelitian ini adalah mengimplementasikan pendekatan berbasis konteks menggunakan peluang bersyarat untuk menghitung nilai peluang dari frasa yang dijadikan acuan dalam pengoreksian frasa dan pemberian kata usulan pada kata yang salah. Ruang Lingkup Ruang lingkup penelitian yang dilakukan oleh penulis meliputi : • Koleksi dokumen terdiri atas dokumen berbahasa Indonesia. • Hasil dari penelitian dievaluasi menggunakan persepsi manusia. Manfaat Penelitian ini dilakukan untuk mengetahui kinerja dari penggunaan peluang bersyarat dalam menghitung nilai peluang dari pasangan frasa yang akan digunakan untuk pengoreksian ejaan dan pengajuan kata
1
usulan. Pengembangan sistem ini diharapkan akan dapat meningkatkan keefektifan dan keefesienan dalam proses koreksi frasa Bahasa Indonesia berbasis konteks. TINJAUAN PUSTAKA Kesalahan dan Koreksi Ejaan Menurut Damerau (1964) menyimpulkan 80% kesalahan ejaan dapat disebabkan karena empat hal, yaitu: penggantian satu huruf (substitution), penyisipan satu huruf (insertion), penghilangan satu huruf (deletion), transposisi dua huruf berdekatan (transpotion). Menurut Peterson (1980), kesalahan ejaan dapat terjadi karena beberapa hal, diantaranya: 1. Ketidaktahuan penulisan. Kesalahan ini biasanya konsisten dan kemungkinan berhubungan dengan bunyi kata dan penulisan yang seharusnya. 2. Kesalahan dalam pengetikan yang lebih tidak konsisten tapi mungkin berhubungan erat dengan posisi tombol papan ketik dan pergerakan jari. 3. Kesalahan transmisi dan penyimpanan yang berhubungan dengan pengkodean pada jalur mekanisme dengan pengkodean pada jalur mekanisme transmisi data. Koreksi ejaan adalah proses menemukan kesalahan ejaan pada kata di suatu teks tertulis dan mungkin untuk dilakukan pengoreksian. Kesalahan ejaan dapat dikelompokkan menjadi dua yaitu (1) non-word errors dan (2) real-word errors (Fossati & Eugenio 2007). 1. Non-word errors yaitu kesalahan ejaan dimana kata tersebut tidak terdapat dalam kamus atau bahasa tertentu.
Koreksi Ejaan Konteks Sensitif Koreksi ejaan konteks sensitif adalah masalah dari kesalahan ejaan yang merupakan invalid word dalam kosa kata atau konteksnya (Golding 1995). Contoh kesalahan ejaan yang dapat muncul dengan tipe-tipe yang berbeda, kesalahan ketik (kawah, sawah), kerancuan homonim (bisa, bisa), kerancuan homofon (bank, bang), kerancuan homograf (apel, apel) dan kesalahan penggunaan (ke, di). Kesalahan ini tidak dapat dideteksi oleh koreksi ejaan biasa. Koreksi ejaan tersebut hanya menunjukkan kesalahan dan tidak menghasilkan sebuah koreksi dari kata yang salah. Koreksi ejaan konteks sensitif dianggap sebagai sebuah tugas dari keambiguan kata. Kata yang ambigu dimodelkan dalam confusion set, C = {Wi,.......,Wn} dimana i dimulai dari 0, artinya setiap kata Wi dalam confusion set tersebut saling ambigu satu sama lain. Pada kejadian C = {nangka, sangka}, program koreksi ejaan biasa hanya akan mendeteksi kesalahan kata tanpa memberikan usulan dari hasil koreksi. Ada dua jenis kesalahan yaitu: •
false negatives yaitu mempermasalahkan mengenai kata yang benar.
•
false positives yaitu kegagalan dalam mendeteksi sebuah kesalahan.
Harus dibuat asumsi bahwa kedua kesalahan tersebut sama buruknya, walaupun dalam kenyataannya false negatives lebih buruk dan sebagai pengguna pasti merasa kesal. Lima metode untuk koreksi ejaan yaitu (Golding 1995): •
Contoh: Batang pohon terdiri atas lapisan pembuluj silem dan floem. Kata pembuluj tidak terdapat dalam KBBI dan dinyatakan sebagai kata yang salah.
Baseline: sebuah indikator dari kompetensi minimal untuk perbandingan dengan metode-metode lain.
•
Context words: uji kata-kata tertentu dalam ±k kata dari kata yang ambigu.
2. Real-word errors yaitu kesalahan ejaan dimana secara konteks kata tersebut dinyatakan salah walau kata tersebut terdapat dalam KBBI.
•
Collocations: test untuk pola sintaktis sekitar target ambigu.
•
Decision list: menggabungkan context words dan collocations melalui daftar keputusan.
•
Bayesian classifiers: menggabungkan context words dan collocations melalui klasifier Bayesian.
Contoh: Batang pohon terdiri atas lapisan pembunuh silem dan floem. Kata pembunuh terdapat dalam KBBI tetapi secara konteks yang benar seharusnya kata pembuluh.
2
Baseline
Trigram
Keambiguan kata pada metode Baseline antara Wi sampai Wn, dimana i dimulai dari 0 sampai n merupakan bilangan real positif dengan hanya mengabaikan konteks dan mencoba menebak kata yang tepat berdasarkan data latih. Koleksi kata dalam confusion set dapat digunakan untuk evaluasi metode keseluruhan. Akurasi prediksinya didapat dari jumlah kata yang benar yang diprediksi dibagi jumlah kata dalam confusion set yang muncul. Contoh: anggota dari confusion set {nangka, sangka} berjumlah 860 dalam korpus, dimana {nangka} sebanyak 744 dan {sangka} sebanyak 96 maka metode Baseline memprediksi {nangka} dan jumlah {nangka} yang benar 744 sehingga didapat hasil 744/860 = 0.886.
Metode trigram dibuat untuk koreksi ejaan sensitif yang ditemukan oleh Mays et al (1991). Metode ini membutuhkan korpus yang banyak sebagai data latih. Kata yang akan dikoreksi tersebut akan digantikan dengan kata yang berada dalam confusion set. Setiap kata pengganti kata yang salah dihitung nilai peluangnya berdasarkan hasilnya dalam sebuah kalimat.
Context Words Pengidentifikasian kata usulan pada metode context words berasal dari kata yang berada di sekitar kata yang salah. Sebagai contoh, keambiguan antara kata pembunuh dan pembuluh. Kata-kata yang tersedia di sekitarnya adalah penjara, kriminal dan mayat maka kata yang diusulkan adalah pembunuh, dan sebaliknya jika kata-kata yang tersedia di sekitarnya adalah tanaman, lapisan dan silem akan lebih mengarahkan kata pembuluh sebagai kata usulannya. Metode context words baik untuk masalah-masalah umum yang penyelesaian masalahnya tergantung pada kata-kata di sekitar kata yang salah.
Lebih jelasnya, diasumsikan sebuah kata wk terdapat dalam sebuah kalimat W=w1…wk…wn, dan w’k adalah kata dan kita sedang mempertimbangkan menggantikannya sehingga dihasilkan kalimat W’. Kata w’k dipilih untuk menggantikan wk apabila P(W’) > P(W), dimana P(W) dan P(W’) adalah nilai peluang W dan W’ berturut-turut. Kita akan menghitung nilai W dan W’ menggunakan urutan yang telah ditandai oleh W sebagai kuantitas antara dan menjumlahkan semua kemungkinan urutan yang telah ditandai. Nilai peluang dari kalimat yang telah ditandai adalah:
dengan T adalah urutan yang ditandai dalam kalimat W yang dimulai dari 1. Nilai peluang pada metode trigram dapat diduga dengan rumus sebagai berikut:
Collocations Pencarian kata usulan pada metode collocations dilakukan dengan melihat pola pada kata dan melakukan proses tagging pada kata-kata yang ada di sekitar kata yang salah. Tetapi untuk masalah sintaks, collocations dan metode trigram lebih baik. Contoh: • Gudeg Jogja menggunakan biji *sangka. S/ Kb P/Kker O/Kb • biji *sangka D/Kb M/Kker Keterangan: S = subjek P = predikat O = objek Kb = kata benda Kker = kata kerja D = diterangkan M = menerangkan
= dengan T = t1 … tn dan P(ti|ti-2ti-1) adalah nilai peluang dari kemungkinan urutan yang ditandai terlebih dahulu antara ti-2 dan ti-1. Frasa Frasa adalah gabungan dua kata atau lebih yang bersifat non-predikatif (misal, gunung tinggi disebut frasa karena merupakan konstruksi non predikatif) (Anonim 1991). Frasa ada dua jenis yaitu: • Frasa eksosentris yaitu frasa yang keseluruhannya tidak mempunyai perilaku sintaksis yang sama dengan keseluruhan konstituennya. • Frasa endosentris yaitu frasa yang secara keseluruhannya mempunyai perilaku sintaksis yang sama dengan salah satu konstituennya.
3
METODE PENELITIAN Penelitian ini dilakukan dalam beberapa tahap yang dapat dilihat pada Gambar 1. Tahapan umum dari penelitian ini yaitu: (1) Pengumpulan dokumen, (2) Pemrosesan offline, (3) Pembuatan sistem, (4) Pengujian dan evaluasi sistem.
pada koleksi dokumen uji, maka kata tersebut dianggap sebuah frasa dan dianggap dapat mewakili kesamaan konteks. Perhitungan nilai peluang dari setiap frasa menggunakan nilai peluang bersyarat dengan rumus sebagai berikut: P(A|B) =
,
dengan, n(A|B) = banyaknya kemunculan kata A tepat setelah B, n(A|X) = banyaknya kemunculan kata A tepat setelah kata X, dimana X merupakan kumpulan kata unik yang ada pada koleksi dokumen, dan P(A|B) = peluang munculnya kata A tepat setelah kata B. Pemrosesan offline dapat dilihat dalam Gambar 2.
Gambar 1 Metodologi penelitian. Pengumpulan Dokumen Penelitian ini menggunakan 2000 dokumen yang berasal dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer Fakultas Matematika dan IPA Institut Pertanian Bogor. Dokumen tersebut berbentuk teks (*.txt) dengan struktur XML. Contoh dari dokumen yang digunakan dapat dilihat pada Lampiran 1. Kumpulan frasa beserta nilai peluangnya disimpan dalam database berbentuk file SQL (*.sql) dan akan digunakan sebagai acuan dalam proses koreksi ejaan dan pengajuan kata usulan. Untuk percobaan dalam penelitian ini digunakan 60 jenis kueri (inputan) yang dimasukkan secara manual, dapat terdiri atas dua atau lebih kata dan dipilih secara acak dari database referensi. Kata-kata tersebut dibuat salah pengejaan tetapi kata tersebut masih dapat didefinisikan dalam Kamus Besar Bahasa Indonesia (KBBI).
Gambar 2 Alur pemrosesan dokumen atau pemrosesan offline (Kartina 2010). Pembuatan Sistem Sistem dibuat setelah proses pembentukan kamus frasa beserta nilai peluangnya didapatkan. Proses pembuatan sistem terdiri atas tahap parsing dan tokenisasi kueri, pemeriksaan pada kamus frasa, dan pencarian kata usulan. Proses pada tahap pembuatan sistem dapat dilihat dalam Gambar 3.
Pemrosesan Offline Pemrosesan offline terdiri atas tahap pemrosesan dokumen dan pembentukkan frasa beserta nilai peluangnya. Pembentukkan frasa beserta nilai peluangnya dilakukan sebagai acuan dalam pencarian kata usulan. Asumsi dari pembentukan frasa adalah jika ada dua kata memiliki posisi berurutan dalam suatu dokumen dan kejadian ini sering terjadi
Gambar 3 Alur pembuatan sistem.
4
Pengujian dan Evaluasi Sistem Pengujian dilakukan sebanyak 60 kali menggunakan dua jenis kueri (kueri biasa dan kueri khusus) dan dua jenis kesalahan (kesalahan konteks dan kesalahan Damerau). Evaluasi sistem dilakukan oleh manusia, dimana jawaban dinilai dari segi ketepatan sistem dalam memberikan kata usulan sebagai hasil koreksi. Lingkungan Pengembangan Lingkungan pengembangan digunakan adalah sebagai berikut:
yang
Perangkat lunak: • Windows XP Professional • MySQL Server 5.0 • NetBeans IDE 6.8 • Microsoft Office 2007 • Notepad Perangkat keras: • Processor Intel Core 2 Duo (2.80 GHz) • 3271 Mbytes RAM HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian
Tabel 1. Deskripsi dokumen pengujian
Ukuran rata-rata dokumen Ukuran dokumen keseluruhan
Tabel 2. Contoh 15 Confusion set dan jumlah pada data latih Confusion set
Dokumen korpus yang digunakan untuk pengujian ada sebanyak 2000 dokumen dalam bentuk file teks yang berformat XML. Deskripsi dokumen pengujian ditunjukkan oleh Tabel 1.
Uraian
offline, dimana proses tersebut dilakukan secara terpisah dan terlebih dahulu sebelum dilakukan pembuatan sistem. Pada tahap ini dilakukan proses pembacaan seluruh dokumen. Kemudian dilakukan proses tokenisasi pada dokumen tersebut yaitu memilah-milah tiap kata dengan membuang setiap tanda baca dan spasi sehingga dihasilkan token-token. Setelah itu dilakukan proses pembuangan stopwords sehingga dihasilkan token-token yang lebih efektif dan efisien. Stopwords adalah kata-kata yang sering muncul dalam korpus tetapi tidak memiliki makna yang terlalu penting yang dapat mewakili isi dari korpus, contohnya: ‘pada’, ‘atau’, ‘ke’, ‘dan’, ‘lalu’, ‘mereka’, ‘saya’, ‘kamu’, dan lain-lain. Tahap selanjutnya adalah pembentukan frasa dimana frasa tersebut didapatkan dari kata-kata yang berdekatan dalam setiap kalimat. Jika ada dua kata yang memiliki posisi yang berurutan dalam suatu kalimat pada satu dokumen dan kejadian ini sering terjadi dianggap memiliki keterkaitan antar konteks. Dua kata yang menjadi sebuah frasa dianggap memiliki kesamaan konteks. Pemrosesan dokumen menghasilkan contoh confusion set yang dapat dilihat pada Tabel 2.
Nilai (bytes) 3.220 6.439.002
Ukuran dokumen terbesar
53.306
Ukuran dokumen terkecil
412
Pemrosesan Dokumen Dokumen berasal dari Laboratorium Temu Kembali Informasi. Dokumen ini terlebih dahulu diproses sehingga dihasilkan dokumen berbentuk teks (*.txt) dengan strutur XML di dalamnya. Pemrosesan dokumen yang ditunjukkan pada Gambar 2 dilakukan secara
sawah, kawah irigasi, iritasi panen, paten pupuk, bubuk batang, barang nelayan, pelayan perahu, perayu jamur, janur garam, haram, karam nangka, sangka, langka lemak, lemah, lemas hama, sama, nama hewan, heran bambu, rambu, bumbu
Jumlah confusion set pada data latih 144 113 186 358 234 92 49 51 12 36 5 301 113 39
Confusion set pada Tabel 2 menjelaskan beberapa kata yang memiliki kesamaan dalam hal tulisan tetapi memiliki arti yang berbeda. Hal tersebut yang menyebabkan sistem koreksi konvensional mengalami keambiguan dalam proses pengoreksian. Jumlah pada data latih yang dimaksud adalah banyaknya katakata ambigu tersebut terdapat dalam kamus frasa.
5
Pembentukan Frasa Pembentukan frasa beserta nilai peluangnya dilakukan dengan memanfaatkan hasil penelitian Kartina (2010). Setiap pasangan frasa beserta nilai peluangnya didapat dari preproses pada 2000 dokumen yang merupakan koleksi dokumen dari penelitian ini. Proses pembentukan frasa dilakukan dalam program peluang300510.pl, yang memanggil kembali file preproses.dat yang dihasilkan oleh program frek270510.pl. Dari program tersebut didapatkan kumpulan kata unik yang akan digunakan dalam program peluang300510.pl untuk menghitung frekuensi kata A setelah kata B muncul dan menghitung kata A terhadap semua kata. Frekuensi kata A setelah kata B merupakan pembilang dari perhitungan nilai peluang dan frekuensi kata A terhadap semua kata merupakan penyebut dari perhitungan nilai peluang. Ilustrasi algoritme untuk mendapatkan variabel $pembilang dan $penyebut sebagai berikut: $penyebut : %frek= retrieve(‘praproses.dat’); %urut = %{$frek {‘frekUrut’}}; %unik = %{$frek {‘unik’}}; foreach $kataA of %unik{ foreach $kataB of {$unik{$kataA}}{ $pembilang{$kataA}{$kataB}= $urut{$kataA}{$kataB}; $penyebut{$kataA} += $urut{$kataA}{$kataB}; }}
Perhitungan nilai peluang kata A setelah kata B dari semua pasangan kata unik dapat dilihat pada algoritme berikut: %unik = %{$frek {‘unik’}}; foreach $kataA of %unik{ foreach $kataB of {$unik{$kataA}}{ if $kataA not equal $kataB{ $peluang{$kataA}{$kataB} = $pembilang{$kataA}{$kataB}/ $penyebut{$kataA}{$kataB}; }}}
Contoh proses pembentukan frasa beserta nilai peluangnya dari sebuah dokumen (situshijau07.txt) dapat dijelaskan sebagai berikut: Gunakan ramuan temulawak untuk mengobati gangguan pada hati. Gunakan ramuan temulawak untuk mengobati gangguan pada hati. Caranya iris rimpang temulawak tipis-tipis setelah dibersihkan, lalu direbus dengan air. Rebusan inilah yang nanti diminum, bisa juga ditambahkan madu.
Isi dari dokumen tersebut diproses kemudian dilakukan pembentukan frasa dalam hal ini pembentukan frasa dilakukan per kalimat, proses tersebut dapat dilihat pada Gambar 4.
Gambar 4 Proses pembentukan frasa. Perhitungan Nilai Peluang Kolom pasangan frasa hanya terdiri atas 15 pasangan frasa dikarenakan pembentukan frasa terjadi di setiap satu kalimat. Kolom frekuensi dari Tabel 3 menunjukkan berapa banyak pasangan frasa tersebut muncul pada dokumen tersebut (situshijau07.txt). Nilai frekuensi ini selanjutnya akan digunakan untuk menentukan nilai peluang dari masingmasing pasangan frasa. Kolom frekuensi pada Tabel 3 menjelaskan berapa banyak sebuah pasangan frasa muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Perhitungan nilai peluang pada Tabel 3 hanya ditinjau dari satu dokumen saja untuk memperjelas setiap langkah pembentukan nilai peluang. Kolom ketiga menjelaskan berapa banyak kata A (kata kedua dari setiap pasangan frasa) muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Pada baris pertama kolom ketiga terdapat nilai 2 yang berarti kata ‘ramuan’ pada pasangan frasa ‘gunakan-ramuan’ muncul sebanyak dua kali dalam dokumen situshijau.txt. Pada baris kesepuluh kolom ketiga terdapat nilai 3 berarti kata ‘mengobati’ pada pasangan frasa ‘temulawakmengobati’ muncul sebanyak tiga kali dalam dokumen situshijau.txt. Kolom keempat yang berisi nilai peluang menjelaskan pembentukan nilai peluang dari setiap pasangan frasa yaitu hasil pembagian dari kolom kedua (frekuensi pasangan frasa) dengan kolom ketiga ( A dalam dokumen). Perhitungan peluang pasangan frasa dari 2000 dokumen menghasilkan 90.077 kandidat frasa dengan nilai peluang terkecil 1.98 x 10-4 dan nilai terbesarnya adalah 1. Sebanyak 9.600 pasangan kata memilki nilai peluang sebesar 1, 5.307 pasangan kata memiliki nilai peluang antara 0.5 sampai 1, 18.196 pasang kata memiliki peluang antara 0.1 sampai kurang dari 0.5, dan 56.974 pasang kata
6
memiliki peluang kurang dari 0.1. Gambar 5 menunjukkan histogram sebaran nilai peluang, sumbu y menunjukkan frekuensi pasangan kata untuk setiap nilai peluang. Tabel 3. Nilai peluang pasangan frasa Pasangan Frasa (A-B)
Frekuensi
A dalam dokumen
gunakanramuan
2
2
gunakantemulawak
2
2
gunakanmengobati
2
2
gunakangangguan
2
2
gunakanhati
2
2
ramuantemulawak
2
2
ramuanmengobati
2
2
ramuangangguan
2
2
ramuan-hati
2
2
temulawakmengobati
2
3
temulawakgangguan
2
3
temulawakhati
2
3
mengobatigangguan
2
2
mengobatihati
2
2
gangguanhati
2
2
Kueri yang digunakan dalam penelitian ini minimal terdiri atas subjek dan predikat. Contoh dari kueri yaitu: •
Nilai Peluang = Frekuensi A dalam dokumen
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 3 2 3 2 2 2 2 2 2
Pemecahan (Split) Kueri
=1 =1 =1 =1
jangkrik merusak bawah S P O Sistem akan melakukan proses pemecahan (split) sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Dengan adanya proses tokenisasi maka spasi (“ “) dibuang sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Hasil pemecahan (split) kemudian digunakan sebagai pedoman untuk mengoreksi kata yang salah dan mencari kata usulan sebagai hasil dari koreksi. Kueri yang telah diproses akan diperiksa ke dalam kamus frasa. Proses pencarian kata usulan tersebut menggunakan nilai peluang dari masingmasing kata tunggal hasil proses tokenisasi.
=1
Periksa pada Kamus Frasa
=1
Kueri yang dimasukkan pengguna berupa kalimat akan dibaca oleh sistem kemudian disimpan ke dalam variabel query. Hasil pemecahan (split) disimpan dalam variabel q dan akan diperiksa apakah terdapat dalam kamus frasa atau tidak. Hasil pemecahan (split) yang terdapat dalam kamus frasa akan disimpan dalam variabel kueriBaru[jlhKueriBaru], sedangkan yang tidak terdapat dalam kamus frasa akan diabaikan dan dianggap sebagai kata yang salah dan akan diperbaiki. Pemeriksaan dilakukan baik pada entitas kata1 ataupun kata2 pada kamus frasa. Indeks pada variabel kueriBaru[jlhKueriBaru] dimulai dari jlhKueriBaru=0 sampai jlhKueriBaru=n. Variabel kueriBaru[jlhKueriBaru] tersebut akan digunakan untuk pencarian kata usulan. Berikut adalah ilustrasi algoritme untuk mendapatkan variabel kueriBaru[jlhKueriBaru] adalah:
=1 =1 =1 = 0.67 = 0.67 = 0.67 =1 =1 =1
Gambar 5 Histogram sebaran nilai peluang pembentukan frasa.
query = Kueri.getText(); String[] q = query.parsing dan tokenisasi(" "); for (a = 0; a < q.length; a++) { b = 0; rs=statement.executeQuery("selec t * from peluang where kata1='" + q[a] + "' OR kata2='" + q[a] + "'"); if (b != 0) { kueriBaru[jlhKueriBaru]= q[a];}}
7
Pemrosesan kueri berguna untuk menunjukkan kata yang salah yang terdapat dalam kueri. Contoh kueri: pupuk organik digantikan dengan susuk buatan S P O Kueri tersebut terlebih dahulu diproses yaitu setelah kueri dibaca oleh program maka kueri tersebut disimpan dalam variabel query[], kemudian dilakukan proses pemecahan (split) dan hasil proses pemecahan (split) disimpan dalam variabel q[] yaitu pupuk, organik, digantikan, dengan, susuk, buatan. Hasil pemecahan (split) tersebut kemudian diperiksa satu persatu ke dalam kamus frasa, apakah kata-kata tersebut ada dalam kamus frasa. Berdasarkan ke-enam kata tersebut maka kata susuk tidak terdapat dalam kamus frasa sehingga program menganggap kata susuk sebagai kata yang salah yang kemudian akan dicari kata usulannya.
kata1 dan entitas kata2 satu per satu dengan variabel kueriBaru[j]. Kata usulan dari proses koreksi dibatasi pada kata yang baru, maksudnya kata usulan tidak mengandung kata yang terdapat dalam variabel kueriBaru[] atau kueri. Jika ada anggota entitas kata1 yang sama dengan anggota yang terdapat dalam variabel kueriBaru[j] atau kueri maka program akan mengeluarkan entitas kata2 beserta nilai peluangnya sebagai kata usulan dan jika entitas kata1 tidak sama dengan anggota yang terdapat dalam variabel kueriBaru[j] atau kueri maka program akan mengeluarkan entitas kata1 beserta nilai peluangnya sebagai kata usulan.
Pencarian Kata Usulan
selanjutnya adalah program akan mencari kata usulan untuk menggantikan kata susuk. Hasil parsing dan tokenisasi digunakan kembali dimana tiap anggota dari variabel kueriBaru[j] akan diperiksa keanggotaanya dalam kamus frasa, jika ada dalam kamus frasa baik terdapat dalam entitas kata1 ataupun pada entitas kata2 pada kamus frasa, maka program akan mengambil pasangan frasa tersebut beserta nilai peluangnya, contoh untuk kata pupuk maka pasangan frasa yang terdapat dalam kamus frasa yaitu : ' pupuk-sebagi' 1, ' pupuksriwijaya'1, ' pupuk-koprasi'1, ' kelangkaanpupuk' 0.0823373, ' penggunaan-pupuk' 0.0756972, ' harga-pupuk' 0.065073, dan seterusnya. Kumpulan hasil pencarian pada kamus frasa dari setiap anggota pada variabel kueriBaru[j] tersebut kemudian di-sorting secara descending sehingga dihasilkan: ' pupuk-sriwijaya' 1, ' menggantikan-bpkp' 1, ' pupuk-bokashi'1, ' organik-tdc'1, ' organikprinsipnya' 1, dan seterusnya. Kemudian program akan memeriksa kesamaan setiap kandidat kata usulan baik pada entitas kata1 maupun entitas kata2 dengan anggota pada variabel kueriBaru[j]. Kata yang diambil sebagai kata usulan adalah kata yang tidak sama dengan anggota pada variabel kueriBaru[j]. Dari lima kandidat kata usulan di atas didapatkan kata usulan sebagai berikut: sriwijaya, bpkp, borashi, tdc, dan prinsipnya.
Penggunaan nilai peluang dalam proses pencarian kata usulan dari kata yang dianggap salah pada kueri merupakan fokus dari penelitian ini. Proses sorting dilakukan pada kamus frasa berdasarkan nilai peluangnya menggunakan algoritme quick sort. Proses sorting dilakukan sebanyak dua kali yaitu pada entitas kata1 dan pada entitas kata2. Entitas kata1 di-sorting berdasarkan nilai peluangnya begitu juga dengan entitas kata2. Berikut adalah ilustrasi algoritme untuk mensorting entitas kata1 dan entitas kata2 berdasarkan nilai peluangnya: if (i<=j) { try { h = nilai[i]; nilai[i] = nilai[j]; nilai[j] = h; kataI = kata1[i]; kata1[i]=kata1[j]; kata1[j]= kataI; kataII = kata2[i]; kata2[i]=kata2[j]; kata2[j]= kataII; i++; j--; } catch (Exception ex) { }}
Variabel kueriBaru[j] yang merupakan hasil pemrosesan kueri dan terdiri atas kata tunggal akan diperiksa apakah terdapat dalam kamus frasa. Pencarian kata usulan dilakukan dengan memeriksa kesamaan anggota entitas
Pada penelitian ini, kata yang diusulkan berasal dari kata-kata yang berhubungan secara konteks dengan kueri, dilihat nilai peluang dari setiap pasangan kata. Pada kueri pupuk organik digantikan susuk buatan. Program sudah dapat mendeteksi kesalahan berada pada kata susuk. Tahap
8
Kata usulan sangat banyak maka setiap kemungkinan pasangan kata usulan tersebut akan dilakukan pengurutan berdasarkan nilai peluangnya secara menurun (descending). Penelitian dibatasi dengan mengambil 10 pasangan kata teratas menjadi kata usulan sebagai koreksi dari kata yang salah. Algoritme lengkap dari pembuatan sistem dapat dilihat pada Lampiran 4. Pengujian Sistem Pada tahap ini sistem yang telah dibuat diuji menggunakan metode black box dengan beberapa data contoh sebelum melakukan pengujian dengan data uji sebenarnya. Hal ini berguna untuk menyempurnakan sistem yang telah dibuat. Pengujian sistem yang sesungguhnya dilakukan dengan cara memasukkan data kata salah ejaan yang telah ditentukan secara acak sebelumnya sebanyak 60 jenis inputan kueri. Inputan kueri tersebut dibedakan menjadi dua macam yaitu 30 kueri biasa, dimana kata yang salah merupakan kata tunggal dalam kueri dan 30 kueri khusus, dimana kata yang salah berupa frasa dalam kueri. Kata yang salah dalam kalimat dibuat salah pengejaan sesuai dengan yang didefinisikan oleh Damerau Levenstein yaitu penyisipan (insertion), penghapusan (deletion), Penukaran (transposition), dan penggantian (substitution), maupun kesalahan secara konteks. Lampiran 2 menunjukkan 60 jenis kueri yang digunakan dalam penelitian ini. Proses pengujian yang sebenarnya menghasilkan 60 macam percobaan dengan 2 macam jenis kesalahan yang hasilnya dapat dilihat pada Tabel 4 dan Gambar 6. Tabel 4. Hasil pengujian sistem Kuerikesalahan
Kejadian 1
2
3
4
5
6
7
8
9
10dst
Biasakonteks
0
0
0
0
0
0
0
0
0
0
BiasaDamerau
0
0
0
0
0
0
0
0
0
0
Khususkonteks
1
1
1
1
1
1
1
1
1
1
KhususDamerau
1
1
1
1
1
1
1
0
1
1
Gambar 6 Grafik hasil koreksi sistem.
Pada Tabel 4 nilai 0 menjelaskan bahwa sistem tidak berhasil memberikan kata usulan yang tepat sebagai hasil koreksi sedangkan nilai 1 menjelaskan sistem berhasil memberikan kata usulan yang tepat sebagai hasil koreksi. Pada sumbu ordinat terdapat rentang antara 0-18 yang mewakili jumlah kueri masukan, sehingga terdapat 60 kejadian pengujian yaitu ada 30 kueri biasa dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau dan 30 kueri khusus dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau. Pengujian pada 30 kueri biasa dengan kesalahan ejaan yaitu kesalahan konteks dan kesalahan Damerau, sistem tidak menghasilkan kata usulan yang tepat, sehingga grafik kueri biasa dengan kesalahan konteks dan kesalahan Damerau merujuk di angka 0. Pengujian pada 30 kueri khusus dengan kesalahan ejaan yaitu kesalahan konteks, sistem berhasil mengembalikan kata usulan yang tepat pada 30 khusus tersebut sehingga grafik kueri khusus dengan kesalahan konteks merujuk di angka 10. Pengujian pada 10 kueri khusus dengan kesalahan Damerau, sistem hanya mampu menyelesaikan 9 kueri khusus dengan memberikan kata usulan yang tepat pada 9 kueri tersebut dan gagal memberikan kata usulan yang tepat pada satu kueri khusus dengan kesalahan Damerau. Dari 60 kali pengujian yang terlihat dalam Gambar 6 dapat disimpulkan bahwa sistem sangat baik diimplementasikan pada kueri khusus. Pada kueri biasa, sistem memiliki akurasi yang buruk pada kedua jenis kesalahan. Hasil pengoreksian sistem dapat lebih jelas dilihat pada Lampiran 3. Evaluasi Sistem Proses pengujian sistem pada 30 jenis kueri khusus dihasilkan 10 kata usulan dari kata yang akan dikoreksi sehingga didapatkan hasil bahwa ada sebanyak 18 kueri khusus yang menghasilkan kata usulan yang diinginkan. Hasil untuk kueri khusus ini cukup baik mengingat bahwa kata yang salah tersebut merupakan sebuah frasa yang dipengaruhi sangat besar oleh pasangan frasanya. Pada pengujian ini, sistem berhasil mengembalikan kata usulan yang tepat pada 18 kueri khusus dengan kesalahan konteks dari 30 percobaan dan 17 kueri khusus dengan kesalahan Damerau dari 30 percobaan.
9
Akurasi yang dihasilkan 60% pada kueri khusus dengan kesalahan konteks dan 56.67% pada kueri khusus kesalahan Damerau. Proses pengujian sistem pada 30 jenis kueri biasa dihasillkan 10 kata usulan dari kata yang akan dikoreksi maka didapatkan hasil bahwa 30 kueri biasa tersebut tidak menghasilkan kata usulan yang diinginkan atau tepat secara persepsi manusia, tetapi jika dibangkitkan program untuk menghasilkan lebih dari 10 kata usulan maka ada kemungkinan kata usulan yang tepat akan muncul. Hal itu dikarenakan banyaknya katakata yang ada di sekitar kata yang salah atau kata-kata yang terdapat dalam kueri yang mempengaruhi proses pengajuan kandidat kata usulan sedangkan sistem hanya memunculkan 10 kata usulan saja sehingga belum tentu kata usulan yang tepat tersebut masuk ke dalam kata usulan yang diajukan. Adanya pasangan frasa yang memiliki nilai 1 tetapi jika dianalisis berdasarkan persepsi manusia tidak memiliki keterkaitan antar konteks. Hal ini dikarenakan pasangan kata tersebut muncul satu kali pada seluruh dokumen. Tabel 4 akan menunjukkan contoh pasangan kata dengan nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks. Tabel 5. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks Pasangan frasa Pena namanya
Nilai 1
Pabrik terbunuh
1
Terbuka berhias
1
Ipb titipkan
1
Munculnya pasangan frasa pada Tabel 5. tersebut dikarenakan bahwa frekuensi munculnya kata, misalnya: “namanya” setelah kata “pena” sebanyak 1 kali dan munculnya kata “namanya” sebanyak 1 kali dalam korpus sehingga berdasarkan rumus peluang bersyarat didapatkan nilai peluang frasa tersebut sebesar 1 yang merupakan hasil dari: Frekuensi (namanya|pena) = 1 = 1 Jumlah kata “namanya” 1 Kejadian ini banyak terdapat pada korpus sehingga mengakibatkan pemberian kata usulan oleh sistem tidak sesuai dengan yang diinginkan. Minimnya metode untuk
menentukan kandidat kata usulan menyebabkan hasil yang tidak begitu baik. Penentuan kata usulan hanya menggunakan nilai peluang sebagai acuan belum menjawab permasalahan ini terlebih pada jenis kueri biasa yaitu kueri yang dipengaruhi oleh banyak kata di sekitar kata yang salah pada kueri. Selain itu adanya pasangan kata yang tidak memiliki arti secara KBBI tetapi masuk ke dalam kamus frasa, hal itu mungkin disebabkan kesalahan pada pemrosesan dokumen yaitu pada tahap parsing dan tokenisasi. Tabel 6 menunjukkan contoh kata yang tidak memiliki arti dalam KBBI tetapi termasuk dalam kamus frasa. Tabel 6. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki arti dalam KBBI Pasangan frasa
Nilai
Tdc tdg
1
Ppic sumbagut
1
Lkj zaim
1
Shih fang
1
Wto tipuan
1
Pasangan frasa pada Tabel 6 dikarenakan pemilihan korpus sebagai data latih kurang diperhatikan sehingga banyak terdapat katakata yang tidak memiliki arti sama sekali dalam KBBI. Selain itu nilai peluang yang besar juga belum mewakili keterkaitan antar konteks dari setiap pasangan kata, justru pasangan kata dengan nilai peluang yang kecil yang memiliki keterkaitan antar konteks berdasarkan persepsi manusia. Tabel 7 akan menunjukkan contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil. Tabel 7. Contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil Pasangan frasa
Nilai
Agroindustri pertanian
0.000197981
Irigasi petani
0.000627353
Bayam tanaman
0.000713776
Sawah lahan
0.000860585
Pertanian produksi
0.000968992
10
Akurasi yang rendah yang dihasilkan oleh sistem juga dikarenakan oleh pembuangan stopwords pada pemrosesan offline. Ada sebanyak 733 kata yang dimasukkan pada stopwords. Dari 733 kata tersebut, banyak kata-kata yang tidak seharusnya dibuang atau dijadikan menjadi stopwords karena dianggap masih memiliki makna dan dapat mewakili penciri dari sebuah dokumen. Contoh kata yang termasuk stopwords yaitu dicontohkan, dan jika dianalisis kata tersebut memiliki makna dan dapat mempengaruhi secara konteks dalam kalimat sehingga harus diperhatikan kembali kata yang akan dimasukkan ke dalam stopwords. Sesuai dengan judul yang digunakan dalam penelitian ini bahwa penelitian ini memperhatikan konteks dari sebuah kalimat, sistem akan mencari semua kata yang berhubungan secara konteks dengan kata-kata yang ada dalam kueri dan karena banyak kata yang bermakna telah dibuang pada pemrosesan offline maka sistem tidak berhasil menemukan kata yang terkait secara konteks dengan kata-kata yang ada dalam kueri sehingga sistem menghasilkan kata usulan yang tidak sesuai dengan yang diharapkan. Kelebihan: • Penggunaan nilai peluang dalam proses koreksi frasa sangat baik dilakukan pada frasa.
Gambar 7 Antarmuka sistem. Proses yang terjadi pada sistem hanya pada button “Koreksi” dimana sistem akan menerima dari pengguna berupa kueri masukan dan proses yang terjadi adalah kueri masukan yang telah dimasukkan akan diproses terlebih dahulu menghasilkan katakata tunggal yang kemudian akan diperiksa ke dalam kamus frasa lalu dilakukan proses pencarian kata usulan dan output yang dihasilkan adalah kata-kata tunggal yang menjadi kata usulan. KESIMPULAN DAN SARAN
Kekurangan: • Koreksi frasa berbasis konteks belum menghasilkan koreksi frasa yang akurat dikarenakan metode ini hanya menggunakan nilai peluang dari setiap pasangan kata dimana nilai tersebut belum tentu mewakili keterkaitan antar kata. Antarmuka Sistem Antarmuka sistem koreksi frasa Bahasa Indonesia berbasis konteks terdiri atas text box (intuk input kueri masukan), button untuk melakukan proses koreksi dari kueri masukan dan output area untuk menampung hasil proses koreksi. Perancangan antarmuka sistem ini dapat dilihat pada Gambar 7.
Kesimpulan Hasil penelitian menunjukkan pengembangan sistem koreksi frasa Bahasa Indonesia menggunakan nilai peluang bersyarat dari setiap frasa cukup baik untuk diimplementasikan pada kueri masukan yang berupa frasa. Hal ini terbukti dari 30 masukan kueri berupa frasa, terdapat 18 masukan kueri yang menghasilkan kata usulan yang sesuai dengan yang diinginkan. Pada kueri biasa, sistem koreksi frasa belum mampu menyelesaikan dengan baik. Hal ini terbukti dari 30 masukan kueri biasa, sistem tidak menghasilkan kata usulan sesuai dengan yang diinginkan. Saran Beberapa hal yang perlu dilakukan untuk pengembangan lebih lanjut adalah sebagai berikut: 1.
Memperhatikan pemilihan yang lebih berkualitas.
korpus
11
2.
Perbaikan dalam pengambilan katakata unik pada korpus, dimana katakata tersebut tidak hanya unik dalam arti jarang muncul pada korpus tetapi memiliki makna.
Kartina. 2010. Analisis Pertanyaan Berbahasa Indonesia pada Question Answering System (QAS) [skripsi]. Bogor: Program Sarjana, Institut Pertanian Bogor.
3.
Pembobotan dalam pembentukan frasa, semakin dekat kata yang satu terhadap kata yang lain maka bobotnya semakin besar, dan sebagainya.
Mays E, Fred JD and Robert LM. 1991. Context Based Spelling Correction. Information Processing and Management. Vol. 27, No. 5: 517–522.
4.
Penggunaan metode nilai peluang dalam proses koreksi perlu dikombinasikan dengan proses tagging pada setiap kata.
5.
Perbaikan dalam formula untuk mendapatkan kandidat frasa dan perhitungan nilai peluang dari kandidat frasa.
6.
Perlu diperhatikan pemilihan kata yang akan dimasukkan ke dalam stopwords.
Sutisna U. 1999. Koreksi Ejaan Query Bahasa Indonesia Menggunakan Algoritme Damerau Lavenshetein [skripsi]. Bogor: Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Wahyudin A. 2009. Analisis Trigram Untuk Koreksi Ejaan [skripsi]. Bogor: Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Yates RB, Information
Neto BR. 1999. Modern Retrieval. ACM Press.
DAFTAR PUSTAKA Anonim. 1991. Kamus Besar Bahasa Indonesia. Jakarta: Balai Pustaka. Arumsari KN. 1998. Penggunaan Metode Kesamaan String pada Pemeriksaan Ejaan Bahasa Indonesia [skripsi]. Bogor: Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Fossati D, Eugenio BD. 2007. A Mixed Trigrams Approach for Context Sensitive Spell Checking. In CICLing-6007, Eighth International Conference on Intelligent Text Processing and Computational Linguistics: 623-633. Golding AR. 1995. A Bayesian Hybrid Method for Context-Sensitive Spelling Correction. The Computing Research Repository (CoRR). 9605037: 39-53. Golding AR, Schabes Y. 1996. Combining Trigram-based and Feature-based Methods for Context-Sensitive Spelling Correction. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics: 71-78. Golding AR, Roth D. 1999. A Winnow-Based Approach to Context-Sensitive Spelling Correction. Machine Learning. Vol 34: 107-130.
12
LAMPIRAN
13
Lampiran 1 Contoh dokumen pengujian
Deptan11122009 <TITLE>TERINFESTASI OPTK A1, 6 KONTAINER BENIH JAGUNG DAN 3.697 KG BENIH PADI DIMUSNAHKAN (BBKP Surabaya) Pada hari Rabu, tanggal 9 Desember 2009, bertempat di Instalasi Karantina Tumbuhan Exelent di Driorejo Gresik, Balai Besar Karantina Pertanian Surabaya melakukan tindak karantina pemusnahan terhadap benih jagung dan benih padi. Benih jagung yang dimusnahkan adalah sebanyak 6 kontainer karena ditemukan OPTK Pseudomonas syringae pv. Syringae dan Erwinia (pantoea) stewartii. Sedangkan benih padi sebanyak 93 bag (3.697 kg) ditemukan OPTK Pseudomonas syringae pv. Syringae. Secara administrative, kedua media pembawa tersebut telah dilaporkan dan sesuai prosedur yang telah ditetapkan. Tetapi setelah dilakukan uji laboratorium di Balai Besar Karantina Pertanian dan dilakukan uji banding di BBUS Karantina Pertanian, media pembawa tersebut positif terinfestasi OPTK golongan I A1 dan harus dimusnahkan Kedua agen penyebab penyakit ini dilaporkan belum pernah ada di wilayah Indonesia dan tidak dapat dibebaskan dengan perlakuan. Bahaya yang ditimbulkan bila masuk ke Indonesia adalah akan dapat menurunkan produktivitas sebesar 60% hingga 60%. Tentunya ancaman ini akan sangat berpengaruh pada tataran ekonomi pertanian khususnya di Jawa Timur yang merupakan sentra penghasil jagung dan padi terbesar di Indonesia. Pemusnahan tersebut di awali dengan penyulutan api oleh kepala Balai Besar Karantina Pertanian Surabaya, Dr Ir Arifin Tasrif, M.Sc dan disaksikan oleh pemilik barang, perwakilan dari BBSB Jawa Timur, Bea dan Cukai Tanjung Perak, Camat Driyorejo Gresik, Kepolisian, dan instansi setempat.
14
Lampiran 2 Contoh kueri Kueri biasa No 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Kueri Jangkrik merusak sawah Pemerintah menghitung luas areal sawah Konsumsi padi dalam negri meningkat Hujan buatan diturunkan untuk mengairi sawah Permintaan terhadap sapi meningkat pada saat hari raya Distribusi air tidak merata karena aliran sungai yang memburuk Varietas unggul belum termanfaatkan dengan baik di Indonesia Produk perkebunan masih tetap jadi andalan Tanaman bawang merah busuk terendam air Pemerintah meminjamkan benih bawang putih pada penduduk Pangan merupakan kebutuhan pokok yang sangat penting bagi manusia Sertifikasi bahan pangan diterbitkan oleh petani organik Penyakit asal makanan sebagian besar disebabkan oleh mikroorganisme Daya saing produk domestik dan penerapan standar pada komoditas hortikultura
15
Kebanyakan produk pertanian segar diekspor ke luar negri daripada dikonsumsi di dalam negri Pembudidayaan tanaman yang baik harus memperhatikan standar tatacara bagaimana memproduksi tanaman Petani harus memperhatikan cara penggunaan pestisida yang baik agar dihasilkan produk yang aman dikonsumsi Residu pestisida di atas ambang batas dinyatakan tidak aman dikonsumsi Apabila komoditas impor diharuskan menerapkan standar jaminan mutu, maka komoditas lokal pun diharuskan menerapkannya juga Departemen pertanian telah bekerja sama dengan pasar swalayan dan rumah pengemas sayur dan buah Es balok dapat menangani produk ikan agar tetap segar Buah-buahan banyak mengandung polisakarida dan asam organik Kandungan yang terdapat pada buah dan sayur dapat mencegah penyakit Kecap ikan yang dihasilkan Indonesia belum memenuhi standar Tempe yang baik dikonsumsi harus melewati fermentasi alami Eksploitasi laut yang berlebihan mengurangi stok ikan dunia Aktifitas manusia dapat mengancam ekosistem laut Penanaman mangrove dapat mencegah terjadinya abrasi Bulog diminta mengambil peran impor supaya harga kedelai tidak fluktuatif Inovasi pertanian dimulai dengan membangun contoh model agribisnis pedesaan
16
17 18 19 20 21 22 23 24 25 26 27 28 29 30
15
Lampiran 2 Lanjutan Kueri khusus No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Kueri Tanah bertekstur kurang cocok untuk bertani Lapisan pada batang terdiri dari pembuluh tapis dan pembuluh kayu Komoditi ikan pindang dapat menambah devisa negara Pertambangan batu bara terletak di Sawahlunto Area persawahan rusak akibat banjir bandang Budidaya salak pondoh dilakukan di dataran rendah Pohon jambu mente banyak kegunaanya Musim paceklik merusak tanaman Ayam berkembang biak dengan bertelur Peneliti harus mendaftarkan hak paten dari hasil temuannya Pohon peneduh di pipnggiran kota mulai berkurang seiring perkembangan kota tersebut Petani mendapati lahan berair setelah hujan turun seharian Peneliti sedang mempelajari kegunaan cairan empedu katak Enzim pencernaan sangat berpengaruh dalam proses mencerna makanan Virus ebola adalah virus yang sering menyerang organ mata Proses pembekuan lava dari gunung berapi menghasilkan batu gamping Hewan amfibi dapat hidup di darat dan di air Para korban banjir Aceh memerlukan cairan desinfektan pada pasca bencana Pabrik penyuling kelapa sawit menghasilkan banyak limbah Pasokan ayam buras dalam negri belum dapat memenuhi kebutuhan ayam dalam negri Minyak zaitun banyak digunakan untuk kecantikan Hewan mamalia berkembang biak dengan melahirkan Kandungan oksigen terlarut dalam setiap air berbeda-beda Pengolahan asama gelugur banyak dilakukan oleh industri rumah tangga Makanan utama burung-burung peliharaan adalah jagung pipil Sistem ekskresi dari tumbuhan sangat sulit diamati Struktur geologist suatu daerah mempengaruhi kesuburan tanahnya Jaring pukat termasuk alat tangkap ikan yang aman Tanaman sangat baik ditanam di lahan gambut Sayur mayur mengandung karbohidrat dan nitrogen
16
Lampiran 3 Daftar hasil usulan koreksi pada kueri Kueri Biasa
No
Kueri
1
Jangkrik merusak bawah Jangkrik merusak saah
2
Pemerintah menghitung puas areal sawah Pemerintah menghitung lluas areal sawah
3
4
5
6
7
8
9
Jenis kesalahan konteks Damerau (deletion) konteks
Damerau (insertion)
Konsumsi pagi dalam negri meningkat
konteks
Konsumsi pady dalam negri meningkat
Damerau (substitution)
Hujan buahan diturunkan untuk mengairi sawah Hujan butaan diturunkan untuk mengairi sawah Permintaan terhadap papi meningkat pada saat hari raya Permintaan terhadap sap meningkat pada saat hari raya Distribusi air tidak merata karena aluran sungai yang memburuk Distribusi air tidak merata karena aliiran sungai yang memburuk Industri manufaktur hanya mampu menyerap sedikit bekerja Industri manufaktur hanya mampu menyerap sedikit bekerla Hamil perkebunan masih tetap jadi andalan Hsail perkebunan masih tetap jadi andalan Lahan bawang merah susuk terendam hujan Lahan bawang merah usuk terendam hujan
konteks Damerau (transpotion) konteks
Damerau (deletion) konteks
Damerau (insertion) konteks
Damerau (substitution) konteks
Damerau (transpotion) konteks Damerau (deletion)
Hasil koreksi
plengsengan,suara,kemampuan,bakal plengsengan,suara,kemampuan,bakal berpengairan,diharakan,persemean, memikirkan,pengangonan, mengimpelementasikan,rest, merangkul,bercurah,tugaskan persemean,diharakan,rest, pengangonan, mengimpelementasikan,berpengairan, mere,bercurah,tugaskan, mengantarkan prluasan,bankir,absennya,harinya, membengkak,kalori, kedele,sweet,pukul,rekonstruksi absennya,bankir,membengkak,kalori, kedele, rekonstruksi,tingkat,pola,kebutuhan penuhi,gerimis,tersendam,berhektare, buah berpengairan,tersendam,menganggur, gerimis,rendam,berhektare,cetakan, beririgasi,deras,menyedot mendekorasi,masayarakat,cende,nmr, pajajaran,tlekung,qsar,idul,tmii,panen masayarakat,pajajaran,tlekung,cende, mendekorasi,qsar,nmr,idul,tmii, konsep nasturtium,lindi,ciwalen,terjung,pikat an,sindupraja,bisikan,diinjak, sekantong,petarangan mendekorasi,masayarakat,cende,nmr, pajajaran,tlekung,qsar,idul,tmii,panen disoroti,setap,keramik,polimer,cat, puree,penyamak,strategik,pemintalan, formaldehid disoroti,setap,keramik,polimer,cat, puree,penyamak,strategik,pemintalan, formaldehid disyaratkan,sedep,disbun,sppp,kta, panglejar,gpp,pnp,menetralkan, tuturya disbun,disyaratkan,sedep,kta,sppp, gpp,panglejar,pnp,ktna,nyalindung menandai,kecokelat,maja,bombay,pu cat,berlereg,rendam,panther, pandanus,sangubanyu menandai,kecokelat,maja,bombay, pucat,berlereg,
17
Lampiran 3 Lanjutan
10
11
12
13
14
15
16
17
Pemerintah meminjamkan benih bawang putih pada pendidik Pemerintah meminjamkan benih bawang putih pada pendudduk Tangan merupakan kebutuhan pokok yang sangat penting bagi manusia Langan merupakan kebutuhan pokok yang sangat penting bagi manusia Sertifikasi tahan pangan diterbitkan oleh petani organik
konteks Damerau (insertion) konteks
Damerau (substitution) konteks
Sertifikasi baahn pangan diterbitkan oleh petani organik
Damerau (transpotion)
Alas penyakit makanan sebagian besar disebabkan oleh mikroorganisme Asl penyakit makanan sebagian besar disebabkan oleh mikroorganisme Maya saing produk domestik dan penerapan standar pada komoditas hortikultura Darya saing produk domestik dan penerapan standar pada komoditas hortikultura
konteks
Kebanyakan produk pertanian senar diekspor ke luar negri daripada dikonsumsi di dalam negri Kebanyakan produk pertanian sedar diekspor ke luar negri daripada dikonsumsi di dalam negri Pembudidayaan tanaman yang bait harus memperhatikan standar tatacara bagaimana memproduksi tanaman Pembudidayaan tanaman yang baki harus memperhatikan standar tatacara bagaimana memproduksi tanaman Pelani harus memperhatikan cara penggunaan pestisida yang baik agar dihasilkan produk yang aman dikonsumsi Peani harus memperhatikan cara penggunaan pestisida yang
Damerau (deletion)
konteks Damerau (insertion)
konteks
Damerau (substitution) konteks
rendam,panther,pandanus, sangubanyu eucalyptus,merangkul,mere,bombay, negarabagin,perai,keruan,mun, dibuangnya,bertabur hpp,eucalyptus,bombay,merangkul, diharakan,keabu,maja,memutihkan, tugaskan,mengintegrasikan tekstur,jahil,masayarakt,ipm,guber, pembuktian,jagungnyateknologinya, kanannya,pengantin ipm,penyambung,sejagad,masayarakt, tekstur,pembuktian,teknologinya, diperhatikan,dikenali,jagungnya mengharap,pemiliknya,tinggalkan, pengukuran,dikerubuti,penggunanya, terhimpun,dihantui,merugi, berbondong diidentikkan,tinggalkan,berbondong, nonberas,mengorganisir,pemiliknya, terhimpun,membutuhkannya,mogok, penggunanya campak,berangsur,kronik,brucellosis, rebah,ekaphan,ispa,tekor,perabot,nbm terganggunya,brucellosis,rebah, ngorok,maag,keguguran,berangsur,kr onik,ispa,ekaphan turunanya,bertarif,kompetitor,idec, igd,singosari, derivatif,dikoordinasi,udangnya derivatif,digambarkan,ekstraktif, tivitas,kalayakan,kompetitor, prospektif,perusahaansemakin, skalanya,bertarif adab,dikelompokkan,tsukasa, singosari,terkonversi,lengkaplah, tercermin,naldlatul,transmigration, bertumbuh adab,dikelompokkan,tsukasa, singosari,terkonversi, lengkaplah,tercermin,naldlatul, transmigration,bertumbuh antigen,kanola,diperbincangkan, kalayakan,gandaria, bunut,penaung,comberan,asori,digilir
Damerau (transpotion)
kanola,monokul,penguat,umbu, perduk,diperbincangkan,comberan, gandaria,kanola,tagetes
konteks
situasinya,perbekunan,reservasi, soejitno,barata,lokalnya,mandilah, tivitas,terhirup
Damerau (deletion)
situasinya,perbekunan,reservasi, soejitno,barata,
18
Lampiran 3 Lanjutan
18
19
20
21
baik agar dihasilkan produk yang aman dikonsumsi Residu pestisida di atas tambang batas dinyatakan tidak aman dikonsumsi Residu pestisida di atas amnbang batas dinyatakan tidak aman dikonsumsi Apabila komoditas impor diharuskan menerapkan standar jaminan mutu, maka komoditas vokal pun diharuskan menerapkannya juga Apabila komoditas impor diharuskan menerapkan standar jaminan mutu, maka komoditas mokal pun diharuskan menerapkannya juga Departemen pertanian telah bekerja sama dengan pasar swalayan dan rumah pengemas sayup dan buah Departemen pertanian telah bekerja sama dengan pasar swalayan dan rumah pengemas sauyr dan buah Es belok dapat menangani produk ikan agar tetap segar Es balk dapat menangani produk ikan agar tetap segar
22
23
24
25
konteks Damerau (insertion) konteks
Damerau (substitution)
bareng,banjiri,prio,kedalam,mernurut, leluasa,nongabah,kebanggaan, ekstraktif,prospektif
konteks
buahan,rontoknya,kiwi,palmerah, mingguan,pgb,bernaung,dilepaskan, perkawinannya
Damerau (transpotion)
buahan,rontoknya,kiwi,palmerah, mingguan,pgb,bernaung,dilepaskan, perkawinannya,perindustria
konteks Damerau (deletion)
Buah-buahan banyak mengandung polisakarida dan ayam organik
konteks
Buah-buahan banyak mengandung polisakarida dan asram organik Kandungan yang terdapat pada buah dan sayup dapat mencegah penyakit Kandungan yang terdapat pada buah dan sauyr dapat mencegah penyakit Kecap ikan yang dihasilkan Indonesia belum memenuhi sandar Kecap ikan yang dihasilkan Indonesia belum memenuhi stanar Tempo yang baik dikonsumsi harus melewati fermentasi alami
Damerau (insertion)
Temfpe yang baik dikonsumsi
lokalnya,mandilah,tivitas,terhirup, digambarkan soejitno,tertib,metasiklor,culakron, wiratakusumah,mandilah,hambat, terhirup,lingkunggan,pestisidanya soejitno,tertib,metasiklor,culakron, wiratakusumah,mandilah,hambat, terhirup,lingkunggan,pestisidanya bareng,banjiri,prio,kedalam,mernurut, leluasa,nongabah,kebanggaan, ekstraktif,prospektif
konteks
Damerau (transpotion) konteks
Damerau (deletion) konteks
Damerau
demersal,pindang,nila,pelagis,menari, turunanya,asin,jemaah,tivitas, berberapa pindang,nila,lokalnya,digambarkan,as in,demersal, indegenous,jemaah,berberapa,turunan ya konotasi,persentasi,embrio,tercukupi, broiler, antiosiamnin,buras,kalkun,piharaanny a,bapaknya anthocyanin,komponen2,medianya,ni trat,antiosiamni,konotasi,persentasi,pr insipnya,tdc,embrio teorinya,kuku,misterius,herpes,sarna, budog,ditaksir, malaria,pgb,kronis teorinya,kuku,misterius,herpes,sarna, budog,ditaksir,malaria,pgb,kronis dikembangbiakkan,peruri,middle, parsi,agribusiness,aeksipi,ati, memarkir,psi,pumpun dikembangbiakkan,peruri,middle, parsi,agribusiness,aeksipi,ati, memarkir,psi,pumpun bernutrisi,peniadaan,diperketat, bioavaibilitasnya,sesampainya, menyehatkan,semalam,interaktif,pha, kecap bernutrisi,peniadaan,diperketat,
19
Lampiran 3 Lanjutan
26
27
28
29
30
harus melewati fermentasi alami Eksploitasi laut yang berlebihan mengurangi stok ikal dunia
(insertion)
Eksploitasi laut yang berlebihan mengurangi stok ijan dunia
Damerau (substitution)
Aktifitas manusia dapat mengancam ekosistem baut Aktifitas manusia dapat mengancam ekosistem luat Penanaman mangrove rapat mencegah terjadinya abrasi
konteks
Penanaman mangrove apat mencegah terjadinya abrasi Bulog diminta mengambil peran impor supaya marga kedelai tidak fluktuatif Bulog diminta mengambil peran impor supaya harnga kedelai tidak fluktuatif Inovasi pertanian dimulai dengan membangun contoh modal agribisnis pedesaan Inovasi pertanian dimulai dengan membangun contoh mokel agribisnis pedesaan
konteks
Damerau (transpotion) konteks Damerau (deletion) konteks Damerau (insertion)
konteks Damerau (substitution)
menyehatkan,sesampainya,pha,kecap, koridor,bioavaibilitasnya,aman halmahera,duplikasi,kecemburuan, seaweed,cotonou,natuna, timbunanpertamakali, persemakmuran,kesemrawutan halmahera,duplikasi,kecemburuan,sea weed,cotonou,natuna, timbunanpertamakali, persemakmuran,kesemrawutan pembuktian,tekstur,sejagad,estuaria, masayarakt,ipm,antarwaktu,generasi pembuktian,tekstur,sejagad,estuaria, masayarakt,ipm,antarwaktu,generasi tananan,karier,beredarnya,satkorlag, minggon,menjangkit,singkronisasi, disebar,interdep,hutan hutan kedalam,maryoso,berkilah,naipin, prognosa,bareng,mulya,mandala, widjanarko,hegemonik widjanarko,membanjir,banjiri, dwifungsi,kecipir,berkilah,prognosa, bareng,kedalam,wijanarko binswanger,involusi,dituangkan, suwanto,upn,tercermin,ngroho, kalkulasi,delanggu,ukmk mengorbankan,penajaman,diperas, mengukuhkan,rohadian,selayaknya, atok,disuatu,bertumbuh,hidropinik
20
Lampiran 3 Lanjutan Kueri khusus
No 1
2
3
4
5
6
7
8
9
10
Kueri Panah bertekstur kurang cocok untuk bertani anah bertekstur kurang cocok untuk bertani Lapisan pada batang terdiri dari pemburuh tapis dan pembuluh kayu Lapisan pada batang terdiri dari ppembuluh tapis dan pembuluh kayu Komoditi ikat pindang dapat menambah devisa negara Komoditi ikag pindang dapat menambah devisa negara Pertambangan batu barang terletak di Sawahlunto
Jenis kesalahan konteks
Pertambangan batu baar terletak di Sawahlunto
Damerau (transpotion)
Damerau (deletion) konteks
tanah,pengalaman,tips
Damerau (insertion)
kayuan,pembuluh,pembuluh
konteks Damerau (substitution) konteks
Area persawahan rusak akibat bankir bandang
konteks
Area persawahan rusak akibat bajir bandang
Damerau (deletion)
Budidaya salah pondoh dilakukan di dataran rendah Budidaya salaak pondoh dilakukan di dataran rendah Pohon jamu mente banyak kegunaanya Pohon jamlu mente banyak kegunaanya Muslim paceklik merusak tanaman Muism paceklik merusak tanaman
konteks Damerau (insertion) konteks
Damerau (substitution) konteks Damerau (transpotion)
Ayam berkembang bias dengan bertelur
konteks
Ayam berkembang bik dengan bertelur
Damerau (deletion)
Bintang pengerat umumnya merugikan manusia
Hasil koreksi tanah,berburu,pengalaman
konteks
kayuan,pembuluh,pembuluh
kemahiran,tersedot,ikan,satu, enam kecukupakan,tersedot,ikan, tahun baranya,gamping,bara, sandungan,bintan,pahat, barakemudianterurai,suntakim, akik,bata gamping,bintan,sandungan, baranya,pahat, barakemudianterurai,suntakim, akik,bara,berlapis kultivasi,yus,outbound,pingir, hiasi,perwasahan,banjir, konsumsi,areal kultivasi,yus,hiasi,pingir, outbound,perwasahan,banjir, areal salak,wilayah,teknologi salak,wilayah,teknologi suweg,tersisa,urainya,kilah, memper,pegal,peneduh, jambu penegasan,suweg,urainya, plang,peneduh,tersisa,jambu perduk,musim
obatnya,berumbi,comberan, pemenuh,eksplan,plengsengan, monokul,kanola,asori,akasia kordinator,ldcs,broiler,kalkun, buras,menggusur,biaknya, berargumen,biak,brandt kordinator,ldcs,broiler,kalkun, buras,menggusur,biaknya, berargumen,biak,brandt Tekstur,sejagad,masayarakt, pembuktian,ipm,binatang, berbentuk
21
Lampiran 3 Lanjutan
11
12
13
14
15
16
17
18
Biinatang pengerat umumnya merugikan manusia Pohon penadah di pinggiran kota mulai berkurang seiring perkembangan kota tersebut
Damerau (insertion) konteks
Pohon penedth di pinggiran kota mulai berkurang seiring perkembangan kota tersebut
Damerau (substitution)
Petani mendapati tahan berair setelah hujan turun seharian
konteks
Petani mendapati alhan berair setelah hujan turun seharian
Damerau (transpotion)
Peneliti sedang mempelajari kegunaan cair empedu katak
konteks
Peneliti sedang mempelajari kegunaan caira empedu katak Ensim pencernaan sangat berpengaruh dalam proses mencerna makanan
Damerau (deletion) konteks
Enzoim pencernaan sangat berpengaruh dalam proses mencerna makanan
Damerau (insertion)
Virus bola adalah virus yang sering menyerang mata
konteks
Virus pbola adalah virus yang sering menyerang mata
Damerau (substitution)
Proses pembekuan lava dari gunung berapi menghasilkan batu gampang Proses pembekuan lava dari gunung berapi menghasilkan batu gamipng Heran amfibi dapat hidup di darat dan di air
konteks
Damerau (transpotion)
Hean amfibi dapat hidup di darat dan di air
Damerau (deletion)
Para korban banjir Aceh memerlukan airan desinfektan pada pasca bencana Para korban banjir Aceh memerlukan cabiran desinfektan pada pasca bencana
konteks
konteks Damerau (insertion)
pembuktian,ipm,tekstur, sejagad,masayarakt,binatang payakumbuh,pohonan,memper, waringin,perhatikan,penegasan, ovarium,tlethong,gotontalo, plang payakumbuh,pohonan,memper, waringin,perhatikan, penegasan,ovarium,tlethong, gotontalo,plang berbondong,tinggalkan, terhimpun,ditundanya, dihantui,rendam,merugi, pemiliknya,membutuhkannya, mengangg berbondong,trampil,ditundanya, dihantui,mogok,tinggalka,meng harap,terhimpun,merugi,nekat mengobservasi,idwan,btpt, pertamawati,balitbantan,cairan, adams mengobservasi,idwan,btpt, pertamawati,balitbantan,cairan tekor,kerupuk,nbm,perabot, marjinalisasi,pelapukan, rempeyek,penyisiran,klaim, fungsionel tekor,kerupuk,nbm,perabot, marjinalisasi,pelapukan, rempeyek,penyisiran,klaim, fungsionel syncytal,flus,dompolan,cpsv, ctv,cpsv,mikroplasma,binis, hanta,ctv hiv,flus,cvev,mikroplasma, dompolan,syncytal, hanta,cpsv,mikroplasma,ebola gunung,gunung halu,patuha,sewu,marjinalisasi, lawu,ciremai,pangrango,tangku banparahu,wayang,sex bplh,rebusan,berkecukupan, nasturtium,qantas,suangi, lautnya,terjung,sudariyono, lukito qantas,kencingnya,keseharian, meningkatan,lukito, sebelas,menggenang,selutut, sudariyono,bplh dandim,incaran,bsa,marshall, kesabaran,bandang,sumetara, cairan dandim,incaran,bsa,marshall,ke sabaran,bandang,sumetara, cairan
22
Lampiran 3 Lanjutan 19
20
21
22
23
Pabrik penyulik kelapa sawit menghasilkan banyak limbah
konteks
Pabrik penyulinh kelapa sawit menghasilkan banyak limbah
Damerau (substitution)
Pasokan ayam buram dalam negri belum dapat memenuhi kebutuhan ayam dalam negri
konteks
Pasokan ayam bruas dalam negri belum dapat memenuhi kebutuhan ayam dalam negri
Damerau (transpotion)
Banyak zaitun banyak digunakan untuk kecantikan Mnyak zaitun banyak digunakan untuk kecantikan Heran mamalia berkembang biak dengan melahirkan Hewman mamalia berkembang biak dengan melahirkan Kandungan oksigen terparut dalam setiap air berbeda-beda Kandungan oksigen terlakut dalam setiap air berbeda-beda
24
25
26
27
Pengolahan asam gugur banyak dilakukan oleh industri rumah tangga Pengolahan asam geluur banyak dilakukan oleh industri rumah tangga
konteks Damerau (deletion) konteks Damerau (insertion) konteks
Damerau (substitution) konteks
Damerau (deletion)
Makanan utama burung-burung peliharaan adalah jagung pipih
konteks
Makanan utama burung-burung peliharaan adalah jagung pipikl
Damerau (insertion)
Stem ekskresi dari tumbuhan sangat sulit diamati Sostem ekskresi dari tumbuhan sangat sulit diamati Struktur geolog suatu daerah mempengaruhi kesuburan tanahnya
konteks
Struktur geologsi suatu daerah mempengaruhi kesuburan tanahnya
Damerau (substitution) konteks
Damerau (transpotion)
sampora,ektrak,kelentik,kerat, pemeliharaannya,lengkuas,rbd, diaudit,penyuling,lpptk sampora,ektrak,kelentik,kerat, pemeliharaannya, lengkuas,rbd,diaudit,penyuling, lpptk bapaknya,bersa,broiler, petrokimia,kalkun,gasnya, piharaannya,bapaknya,buras, broiler bapaknya,bersa,broiler, petrokimia,kalkun,gasnya, piharaannya,bapaknya,buras, broiler minyak,mata,alat minyak,mata,alat
menggusur,hyundai,hewan, berkembang berargumen,menggusur, berkembang,berkembang chlorom,rebusan,nasturtium, beta,glikosil,terjung, plta,kerapkali,menggenang, flow chlorom,rebusan,nasturtium, beta,glikosil,terjung, plta,kerapkali,menggenang, flow ruta,onggok,ketumbar,amino, setap,folat,lenoleik,urat, deoksiribonukleat,pcb ruta,onggok,amino,mentega, laktat,urat,folat, deoksiribonukleat,ketumbar, pcb kerupuk,bakarnya,inlander,diko nsurmi,bulei, terkecil,tekor,membekali,leadin g,perabot bakarnya,iradiasi,functional, inlander,bulei,terkecil,tekor, membekali,leading,kerupuk penghuninya,sistem penghuninya,epifit,sensor, beton,sistem,jenis geologis,attractiveness, kimiawinya,diratakan, tritrophic,kelakuan,tnah,feodal, kimianya,keterpurukan geologis,attractiveness, kimiawinya,diratakan, tritrophic,kelakuan,tnah,feodal, kimianya,keterpurukan
23
Lampiran 3 Lanjutan 28
29
30
Saring pukat termasuk alat tangkap ikan yang aman
konteks
Jarin pukat termasuk alat tangkap ikan yang aman
Damerau (deletion)
Tanaman sangat baik ditanam di lawan gambut
konteks
Tanaman sangat baik ditanam di laghan gambut
Damerau (insertion)
Sadur mayur mengandung karbohidrat dan nitrogen
konteks
Saxur mayur mengandung karbohidrat dan nitrogen
Damerau (substitution)
pengendapan,pelagis,menari,lin gkunggan,pakkaja, pengaduk,asin,penggiling, diagnose,tangkapnya gancu,pemecah,pengukur, pindang,pakkaja,sterilisasi, diagnose,penggiling, tangkapnya,pengendapan penaung,tagetes, diperbincangkan,monokul, kesayangan,bunut,umbu, grafting,bersatu monokul,penaung,penguat, diperbincangkan,tagetes,bunut, umbu,kesayangan,grafting,asori persentasi,konotasi, antiosiamnin,nitrat,npn, komponen2,anthocyanin, disanhut,sayur persentasi,konotasi, antiosiamnin,nitrat,npn, komponen2,anthocyanin, disanhut,sayur
24
Lampiran 4 Program pembuatan sistem
!
" &! !' ! !& &! !+ ! ! !& &!! ! !6 !&
(
#$
%
( (
) ( (
'
*'
,-./0. # ,-),.0.)1203245 %
(
+ 7 +
03.-0.
"
#8
9
: : ) ,: ) ) && + + +
; ; ;
<= <= @ <= && @ %
&!! +
;
<=<= && + > <= && + + % <= && 0<=)+ ,<= ? <=
(
+
(
+ + ,+
+
+
>
<= " ; + 03.-0.AB9 AB
C &!! '( ( ! D ( ; ! E F @ G@ H 2 @ $ ' ! " !& 6 E AI && J K; ;
05./0. !&
;
" (
; ( ( 8
( '(
( + IB :I I AB9 % 0: " " #% AB M : " " #' 8 AB 0: " " # % Lampiran 4% Lanjutan $ : " " #' F AB 0: " " # AB
;(
:IH
(
IL
AB
25
,: 5: + : ;
M
" " "
M
F M C CB
F
$ $
M M
" " "
# AB # AB #> AB $ A " E A " " % ; A " % ; A B
" F
NG'O$ @ O $ AB9 B9
F
%
A,.B " A3B 0 P " P " A$
0 0
8 '
A " " 8 AIM IB
AI' (
I)0)04BB
, ,
8 '
A " AI$
AI' (
I)0)04BB
5 5
8 '
A " AI
+ +
" 8
+ F
B
IB " 8 %
' AIM F
M
B
+ IB A " % ; A % ; A B
AI' ( I)0),4BB Q M IB
" "
F F
AB9 B9
C CB " 0 0
% % %
H
0 H
H H H H "
%
H
0
"
B %
H
0 %
% 0 : " " H A% 0B A% 0 B Q D H A % H A " H F F G@ H B A " H F ' FG G@ H ) % 0 H AB H AB A 5) " H 8F? 'O GR )4,1) ( FNOPF ? B A,0.),0.),0.BB A% 0 H AB A30)30)30B A% 0 % H A " H F F G@ H B A 0) " H % 8 O GR )3/) % 8 O GR B A ,B H A " H F ' FG G@ H ) H AB H A% 0 % H A " H F ' FG G@ H B A % 0) " H F F G@ H ) 8F? 'O GR )3..) ( FNOPF ? B AM ) " H 8F? 'O GR )3..) ( FNOPF ? BB H A0S)0S)0SB AM + BBB H ABB P
0
H %
A H
A% 0 H A0S)0S)0SB A 5) Lampiran " 4H Lanjutan % 8 O % ; H A " A 0) " H % 8 O % ; H A "
A
H
" H
H
F
F G@ H B
AB
" H GR B
%
8
O GR )45)
" H GR B
%
% 8
?@ F' O GR )04)
%
F'
B
B
26
H
0 % H A AM ) " H H 8F? 'O GR ) " H AM + BB H A,S),S),SB A ,B % ; H A " A % 0) " H H % 8 O GR B H A4/) ( FNOPF ? BB
"
"
A%
" %
H
F O GR ) 8 O GR B
8 %
% %
>F
8
?@ F' B O GR )5S3)
A
%
G@ B
B "
H % Q
: AB
A
D
H %
"
H
ABB
A H
A " H F F G@ H B 0) " H 8F? 'O GR ) 8F? 'O GR ) ( FNOPF ? B
A% "
" B
H
B P
H %
A H
A " H F F G@ H B 0) " H 8F? 'O GR ) 8F? 'O GR ) ( FNOPF ? B
A% "
H
B +AB C&& J&
K;
L
M
F
&& '$ $
% ;
A (
(
"
F
B9
2
C $
A A$
'
B9 '
ABT IU U I T
B
C M
+ F (
&& '$ $
A (
"
F
B9
2
<0....=<,= <0....= && :M ' AB &&+ 0: " <0....= ,: " <0....= : " ; <0....= (M > :. : " AB AI ? 7 2I T B
+
>
+ + @
"(
: :
% ;
" "
<= : ' + D A ( AI>
&&;
+
AI IB &&( ( : " ' + D A ' + ABB9 A ' + ABB C +M 2I T (B
+
+
+
+
+
::
+ ,+
B
+
9 9 && V0 Lampiran 4FLanjutan &&0 ; @ AI C (A @ 8
IB B9 A+
03.-0.
@
ABB
A
P
)
) B
C
27
&&,
+ +
+
:A I
+
+
B
" 2
AI
2&&
(
255.1&
I)I
I)
IB &&5 :A B $ @ ? O F O$ @ 7B &&3 ' + :. ; A :. J ( TTB9 :. : AI
A
'7% O
!;
"(
+
$
O @ G'GP )
0:WI T < =T IW$ +
,:WI T < =T
IWIB "(
A ABB9 TT + 0< =: + ,< =: @ < =: 8 TT C
AI+ 0IB AI+ ,IB AI IB
;A X: .B9 + > < (M > =: < = AI 2I T + > < (M > (M > TT CC + A+ 0)+ ,)@ ).)@ (K0B
=T IKI T B
&&1 ' AB AB C (A B9 % ( " $ O FH B
#$ %
#$
A
)I%
I)IM
+
H
I)
C AIU I T I>F@ 7FM M &&
++
+
>
2I T (M +
>
B
+
9 9 && F &&0 C
V0
; @ (A @
AI 8
IB B9 A+
C &&,
+ +
+
:A I
+
03.-0.
@
ABB
+
B
AI
A " 2
P
)
2&&
) B
(
255.1&
I)I
I)
IB &&5 :A B $ @ ? O F O$ @ 7B
A
'7% O
$
O @ G'GP )
AIU IB
Lampiran 4 Lanjutan @
; A
: : %
: @ % :; AIMF'F ? ? F@ 2IB :. J0. TTB9
28
; A ;A
:. J (M > TTB9 <= G A+ : A <=TIKIT@ %
>
<=BB9 <=B
CC ;AX C &!
B9 A
<=T IKIT @
%
<=B
9 A
<=TIKIT@
%
<=B
C!& C AB AB
C #$
AIU I T IKKK FGKKKIB (A B9 #$ % ( " % $ O FH B
A
)I%
I)IM
+
H
I)
C C &!! !6 !&
( A "
<=B9 A "
+ AB9 03.-0.AB
" +
P
A
AB9
B
C CB C && P
K " " " " " " " "
&&
#> #' #' # # # #% #
; M
8 F
% %
+ M $ 0 , 5 0 %
0
;
C
29