Pengujian dan Evaluasi Sistem Pengujian dilakukan sebanyak 60 kali menggunakan dua jenis kueri (kueri biasa dan kueri khusus) dan dua jenis kesalahan (kesalahan konteks dan kesalahan Damerau). Evaluasi sistem dilakukan oleh manusia, dimana jawaban dinilai dari segi ketepatan sistem dalam memberikan kata usulan sebagai hasil koreksi. Lingkungan Pengembangan Lingkungan pengembangan digunakan adalah sebagai berikut:
yang
Perangkat lunak: • Windows XP Professional • MySQL Server 5.0 • NetBeans IDE 6.8 • Microsoft Office 2007 • Notepad Perangkat keras: • Processor Intel Core 2 Duo (2.80 GHz) • 3271 Mbytes RAM HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian
Tabel 1. Deskripsi dokumen pengujian
Ukuran rata-rata dokumen Ukuran dokumen keseluruhan
Tabel 2. Contoh 15 Confusion set dan jumlah pada data latih Confusion set
Dokumen korpus yang digunakan untuk pengujian ada sebanyak 2000 dokumen dalam bentuk file teks yang berformat XML. Deskripsi dokumen pengujian ditunjukkan oleh Tabel 1.
Uraian
offline, dimana proses tersebut dilakukan secara terpisah dan terlebih dahulu sebelum dilakukan pembuatan sistem. Pada tahap ini dilakukan proses pembacaan seluruh dokumen. Kemudian dilakukan proses tokenisasi pada dokumen tersebut yaitu memilah-milah tiap kata dengan membuang setiap tanda baca dan spasi sehingga dihasilkan token-token. Setelah itu dilakukan proses pembuangan stopwords sehingga dihasilkan token-token yang lebih efektif dan efisien. Stopwords adalah kata-kata yang sering muncul dalam korpus tetapi tidak memiliki makna yang terlalu penting yang dapat mewakili isi dari korpus, contohnya: ‘pada’, ‘atau’, ‘ke’, ‘dan’, ‘lalu’, ‘mereka’, ‘saya’, ‘kamu’, dan lain-lain. Tahap selanjutnya adalah pembentukan frasa dimana frasa tersebut didapatkan dari kata-kata yang berdekatan dalam setiap kalimat. Jika ada dua kata yang memiliki posisi yang berurutan dalam suatu kalimat pada satu dokumen dan kejadian ini sering terjadi dianggap memiliki keterkaitan antar konteks. Dua kata yang menjadi sebuah frasa dianggap memiliki kesamaan konteks. Pemrosesan dokumen menghasilkan contoh confusion set yang dapat dilihat pada Tabel 2.
Nilai (bytes) 3.220 6.439.002
Ukuran dokumen terbesar
53.306
Ukuran dokumen terkecil
412
Pemrosesan Dokumen Dokumen berasal dari Laboratorium Temu Kembali Informasi. Dokumen ini terlebih dahulu diproses sehingga dihasilkan dokumen berbentuk teks (*.txt) dengan strutur XML di dalamnya. Pemrosesan dokumen yang ditunjukkan pada Gambar 2 dilakukan secara
sawah, kawah irigasi, iritasi panen, paten pupuk, bubuk batang, barang nelayan, pelayan perahu, perayu jamur, janur garam, haram, karam nangka, sangka, langka lemak, lemah, lemas hama, sama, nama hewan, heran bambu, rambu, bumbu
Jumlah confusion set pada data latih 144 113 186 358 234 92 49 51 12 36 5 301 113 39
Confusion set pada Tabel 2 menjelaskan beberapa kata yang memiliki kesamaan dalam hal tulisan tetapi memiliki arti yang berbeda. Hal tersebut yang menyebabkan sistem koreksi konvensional mengalami keambiguan dalam proses pengoreksian. Jumlah pada data latih yang dimaksud adalah banyaknya katakata ambigu tersebut terdapat dalam kamus frasa.
5
Pembentukan Frasa Pembentukan frasa beserta nilai peluangnya dilakukan dengan memanfaatkan hasil penelitian Kartina (2010). Setiap pasangan frasa beserta nilai peluangnya didapat dari preproses pada 2000 dokumen yang merupakan koleksi dokumen dari penelitian ini. Proses pembentukan frasa dilakukan dalam program peluang300510.pl, yang memanggil kembali file preproses.dat yang dihasilkan oleh program frek270510.pl. Dari program tersebut didapatkan kumpulan kata unik yang akan digunakan dalam program peluang300510.pl untuk menghitung frekuensi kata A setelah kata B muncul dan menghitung kata A terhadap semua kata. Frekuensi kata A setelah kata B merupakan pembilang dari perhitungan nilai peluang dan frekuensi kata A terhadap semua kata merupakan penyebut dari perhitungan nilai peluang. Ilustrasi algoritme untuk mendapatkan variabel $pembilang dan $penyebut sebagai berikut: $penyebut : %frek= retrieve(‘praproses.dat’); %urut = %{$frek {‘frekUrut’}}; %unik = %{$frek {‘unik’}}; foreach $kataA of %unik{ foreach $kataB of {$unik{$kataA}}{ $pembilang{$kataA}{$kataB}= $urut{$kataA}{$kataB}; $penyebut{$kataA} += $urut{$kataA}{$kataB}; }}
Perhitungan nilai peluang kata A setelah kata B dari semua pasangan kata unik dapat dilihat pada algoritme berikut: %unik = %{$frek {‘unik’}}; foreach $kataA of %unik{ foreach $kataB of {$unik{$kataA}}{ if $kataA not equal $kataB{ $peluang{$kataA}{$kataB} = $pembilang{$kataA}{$kataB}/ $penyebut{$kataA}{$kataB}; }}}
Contoh proses pembentukan frasa beserta nilai peluangnya dari sebuah dokumen (situshijau07.txt) dapat dijelaskan sebagai berikut: Gunakan ramuan temulawak untuk mengobati gangguan pada hati. Gunakan ramuan temulawak untuk mengobati gangguan pada hati. Caranya iris rimpang temulawak tipis-tipis setelah dibersihkan, lalu direbus dengan air. Rebusan inilah yang nanti diminum, bisa juga ditambahkan madu.
Isi dari dokumen tersebut diproses kemudian dilakukan pembentukan frasa dalam hal ini pembentukan frasa dilakukan per kalimat, proses tersebut dapat dilihat pada Gambar 4.
Gambar 4 Proses pembentukan frasa. Perhitungan Nilai Peluang Kolom pasangan frasa hanya terdiri atas 15 pasangan frasa dikarenakan pembentukan frasa terjadi di setiap satu kalimat. Kolom frekuensi dari Tabel 3 menunjukkan berapa banyak pasangan frasa tersebut muncul pada dokumen tersebut (situshijau07.txt). Nilai frekuensi ini selanjutnya akan digunakan untuk menentukan nilai peluang dari masingmasing pasangan frasa. Kolom frekuensi pada Tabel 3 menjelaskan berapa banyak sebuah pasangan frasa muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Perhitungan nilai peluang pada Tabel 3 hanya ditinjau dari satu dokumen saja untuk memperjelas setiap langkah pembentukan nilai peluang. Kolom ketiga menjelaskan berapa banyak kata A (kata kedua dari setiap pasangan frasa) muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Pada baris pertama kolom ketiga terdapat nilai 2 yang berarti kata ‘ramuan’ pada pasangan frasa ‘gunakan-ramuan’ muncul sebanyak dua kali dalam dokumen situshijau.txt. Pada baris kesepuluh kolom ketiga terdapat nilai 3 berarti kata ‘mengobati’ pada pasangan frasa ‘temulawakmengobati’ muncul sebanyak tiga kali dalam dokumen situshijau.txt. Kolom keempat yang berisi nilai peluang menjelaskan pembentukan nilai peluang dari setiap pasangan frasa yaitu hasil pembagian dari kolom kedua (frekuensi pasangan frasa) dengan kolom ketiga ( A dalam dokumen). Perhitungan peluang pasangan frasa dari 2000 dokumen menghasilkan 90.077 kandidat frasa dengan nilai peluang terkecil 1.98 x 10-4 dan nilai terbesarnya adalah 1. Sebanyak 9.600 pasangan kata memilki nilai peluang sebesar 1, 5.307 pasangan kata memiliki nilai peluang antara 0.5 sampai 1, 18.196 pasang kata memiliki peluang antara 0.1 sampai kurang dari 0.5, dan 56.974 pasang kata
6
memiliki peluang kurang dari 0.1. Gambar 5 menunjukkan histogram sebaran nilai peluang, sumbu y menunjukkan frekuensi pasangan kata untuk setiap nilai peluang. Tabel 3. Nilai peluang pasangan frasa Pasangan Frasa (A-B)
Frekuensi
A dalam dokumen
gunakanramuan
2
2
gunakantemulawak
2
2
gunakanmengobati
2
2
gunakangangguan
2
2
gunakanhati
2
2
ramuantemulawak
2
2
ramuanmengobati
2
2
ramuangangguan
2
2
ramuan-hati
2
2
temulawakmengobati
2
3
temulawakgangguan
2
3
temulawakhati
2
3
mengobatigangguan
2
2
mengobatihati
2
2
gangguanhati
2
2
Kueri yang digunakan dalam penelitian ini minimal terdiri atas subjek dan predikat. Contoh dari kueri yaitu: •
Nilai Peluang = Frekuensi A dalam dokumen
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 3 2 3 2 2 2 2 2 2
Pemecahan (Split) Kueri
=1 =1 =1 =1
jangkrik merusak bawah S P O Sistem akan melakukan proses pemecahan (split) sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Dengan adanya proses tokenisasi maka spasi (“ “) dibuang sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Hasil pemecahan (split) kemudian digunakan sebagai pedoman untuk mengoreksi kata yang salah dan mencari kata usulan sebagai hasil dari koreksi. Kueri yang telah diproses akan diperiksa ke dalam kamus frasa. Proses pencarian kata usulan tersebut menggunakan nilai peluang dari masingmasing kata tunggal hasil proses tokenisasi.
=1
Periksa pada Kamus Frasa
=1
Kueri yang dimasukkan pengguna berupa kalimat akan dibaca oleh sistem kemudian disimpan ke dalam variabel query. Hasil pemecahan (split) disimpan dalam variabel q dan akan diperiksa apakah terdapat dalam kamus frasa atau tidak. Hasil pemecahan (split) yang terdapat dalam kamus frasa akan disimpan dalam variabel kueriBaru[jlhKueriBaru], sedangkan yang tidak terdapat dalam kamus frasa akan diabaikan dan dianggap sebagai kata yang salah dan akan diperbaiki. Pemeriksaan dilakukan baik pada entitas kata1 ataupun kata2 pada kamus frasa. Indeks pada variabel kueriBaru[jlhKueriBaru] dimulai dari jlhKueriBaru=0 sampai jlhKueriBaru=n. Variabel kueriBaru[jlhKueriBaru] tersebut akan digunakan untuk pencarian kata usulan. Berikut adalah ilustrasi algoritme untuk mendapatkan variabel kueriBaru[jlhKueriBaru] adalah:
=1 =1 =1 = 0.67 = 0.67 = 0.67 =1 =1 =1
Gambar 5 Histogram sebaran nilai peluang pembentukan frasa.
query = Kueri.getText(); String[] q = query.parsing dan tokenisasi(" "); for (a = 0; a < q.length; a++) { b = 0; rs=statement.executeQuery("selec t * from peluang where kata1='" + q[a] + "' OR kata2='" + q[a] + "'"); if (b != 0) { kueriBaru[jlhKueriBaru]= q[a];}}
7
Pemrosesan kueri berguna untuk menunjukkan kata yang salah yang terdapat dalam kueri. Contoh kueri: pupuk organik digantikan dengan susuk buatan S P O Kueri tersebut terlebih dahulu diproses yaitu setelah kueri dibaca oleh program maka kueri tersebut disimpan dalam variabel query[], kemudian dilakukan proses pemecahan (split) dan hasil proses pemecahan (split) disimpan dalam variabel q[] yaitu pupuk, organik, digantikan, dengan, susuk, buatan. Hasil pemecahan (split) tersebut kemudian diperiksa satu persatu ke dalam kamus frasa, apakah kata-kata tersebut ada dalam kamus frasa. Berdasarkan ke-enam kata tersebut maka kata susuk tidak terdapat dalam kamus frasa sehingga program menganggap kata susuk sebagai kata yang salah yang kemudian akan dicari kata usulannya.
kata1 dan entitas kata2 satu per satu dengan variabel kueriBaru[j]. Kata usulan dari proses koreksi dibatasi pada kata yang baru, maksudnya kata usulan tidak mengandung kata yang terdapat dalam variabel kueriBaru[] atau kueri. Jika ada anggota entitas kata1 yang sama dengan anggota yang terdapat dalam variabel kueriBaru[j] atau kueri maka program akan mengeluarkan entitas kata2 beserta nilai peluangnya sebagai kata usulan dan jika entitas kata1 tidak sama dengan anggota yang terdapat dalam variabel kueriBaru[j] atau kueri maka program akan mengeluarkan entitas kata1 beserta nilai peluangnya sebagai kata usulan.
Pencarian Kata Usulan
selanjutnya adalah program akan mencari kata usulan untuk menggantikan kata susuk. Hasil parsing dan tokenisasi digunakan kembali dimana tiap anggota dari variabel kueriBaru[j] akan diperiksa keanggotaanya dalam kamus frasa, jika ada dalam kamus frasa baik terdapat dalam entitas kata1 ataupun pada entitas kata2 pada kamus frasa, maka program akan mengambil pasangan frasa tersebut beserta nilai peluangnya, contoh untuk kata pupuk maka pasangan frasa yang terdapat dalam kamus frasa yaitu : ' pupuk-sebagi' 1, ' pupuksriwijaya'1, ' pupuk-koprasi'1, ' kelangkaanpupuk' 0.0823373, ' penggunaan-pupuk' 0.0756972, ' harga-pupuk' 0.065073, dan seterusnya. Kumpulan hasil pencarian pada kamus frasa dari setiap anggota pada variabel kueriBaru[j] tersebut kemudian di-sorting secara descending sehingga dihasilkan: ' pupuk-sriwijaya' 1, ' menggantikan-bpkp' 1, ' pupuk-bokashi'1, ' organik-tdc'1, ' organikprinsipnya' 1, dan seterusnya. Kemudian program akan memeriksa kesamaan setiap kandidat kata usulan baik pada entitas kata1 maupun entitas kata2 dengan anggota pada variabel kueriBaru[j]. Kata yang diambil sebagai kata usulan adalah kata yang tidak sama dengan anggota pada variabel kueriBaru[j]. Dari lima kandidat kata usulan di atas didapatkan kata usulan sebagai berikut: sriwijaya, bpkp, borashi, tdc, dan prinsipnya.
Penggunaan nilai peluang dalam proses pencarian kata usulan dari kata yang dianggap salah pada kueri merupakan fokus dari penelitian ini. Proses sorting dilakukan pada kamus frasa berdasarkan nilai peluangnya menggunakan algoritme quick sort. Proses sorting dilakukan sebanyak dua kali yaitu pada entitas kata1 dan pada entitas kata2. Entitas kata1 di-sorting berdasarkan nilai peluangnya begitu juga dengan entitas kata2. Berikut adalah ilustrasi algoritme untuk mensorting entitas kata1 dan entitas kata2 berdasarkan nilai peluangnya: if (i<=j) { try { h = nilai[i]; nilai[i] = nilai[j]; nilai[j] = h; kataI = kata1[i]; kata1[i]=kata1[j]; kata1[j]= kataI; kataII = kata2[i]; kata2[i]=kata2[j]; kata2[j]= kataII; i++; j--; } catch (Exception ex) { }}
Variabel kueriBaru[j] yang merupakan hasil pemrosesan kueri dan terdiri atas kata tunggal akan diperiksa apakah terdapat dalam kamus frasa. Pencarian kata usulan dilakukan dengan memeriksa kesamaan anggota entitas
Pada penelitian ini, kata yang diusulkan berasal dari kata-kata yang berhubungan secara konteks dengan kueri, dilihat nilai peluang dari setiap pasangan kata. Pada kueri pupuk organik digantikan susuk buatan. Program sudah dapat mendeteksi kesalahan berada pada kata susuk. Tahap
8
Kata usulan sangat banyak maka setiap kemungkinan pasangan kata usulan tersebut akan dilakukan pengurutan berdasarkan nilai peluangnya secara menurun (descending). Penelitian dibatasi dengan mengambil 10 pasangan kata teratas menjadi kata usulan sebagai koreksi dari kata yang salah. Algoritme lengkap dari pembuatan sistem dapat dilihat pada Lampiran 4. Pengujian Sistem Pada tahap ini sistem yang telah dibuat diuji menggunakan metode black box dengan beberapa data contoh sebelum melakukan pengujian dengan data uji sebenarnya. Hal ini berguna untuk menyempurnakan sistem yang telah dibuat. Pengujian sistem yang sesungguhnya dilakukan dengan cara memasukkan data kata salah ejaan yang telah ditentukan secara acak sebelumnya sebanyak 60 jenis inputan kueri. Inputan kueri tersebut dibedakan menjadi dua macam yaitu 30 kueri biasa, dimana kata yang salah merupakan kata tunggal dalam kueri dan 30 kueri khusus, dimana kata yang salah berupa frasa dalam kueri. Kata yang salah dalam kalimat dibuat salah pengejaan sesuai dengan yang didefinisikan oleh Damerau Levenstein yaitu penyisipan (insertion), penghapusan (deletion), Penukaran (transposition), dan penggantian (substitution), maupun kesalahan secara konteks. Lampiran 2 menunjukkan 60 jenis kueri yang digunakan dalam penelitian ini. Proses pengujian yang sebenarnya menghasilkan 60 macam percobaan dengan 2 macam jenis kesalahan yang hasilnya dapat dilihat pada Tabel 4 dan Gambar 6. Tabel 4. Hasil pengujian sistem Kuerikesalahan
Kejadian 1
2
3
4
5
6
7
8
9
10dst
Biasakonteks
0
0
0
0
0
0
0
0
0
0
BiasaDamerau
0
0
0
0
0
0
0
0
0
0
Khususkonteks
1
1
1
1
1
1
1
1
1
1
KhususDamerau
1
1
1
1
1
1
1
0
1
1
Gambar 6 Grafik hasil koreksi sistem.
Pada Tabel 4 nilai 0 menjelaskan bahwa sistem tidak berhasil memberikan kata usulan yang tepat sebagai hasil koreksi sedangkan nilai 1 menjelaskan sistem berhasil memberikan kata usulan yang tepat sebagai hasil koreksi. Pada sumbu ordinat terdapat rentang antara 0-18 yang mewakili jumlah kueri masukan, sehingga terdapat 60 kejadian pengujian yaitu ada 30 kueri biasa dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau dan 30 kueri khusus dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau. Pengujian pada 30 kueri biasa dengan kesalahan ejaan yaitu kesalahan konteks dan kesalahan Damerau, sistem tidak menghasilkan kata usulan yang tepat, sehingga grafik kueri biasa dengan kesalahan konteks dan kesalahan Damerau merujuk di angka 0. Pengujian pada 30 kueri khusus dengan kesalahan ejaan yaitu kesalahan konteks, sistem berhasil mengembalikan kata usulan yang tepat pada 30 khusus tersebut sehingga grafik kueri khusus dengan kesalahan konteks merujuk di angka 10. Pengujian pada 10 kueri khusus dengan kesalahan Damerau, sistem hanya mampu menyelesaikan 9 kueri khusus dengan memberikan kata usulan yang tepat pada 9 kueri tersebut dan gagal memberikan kata usulan yang tepat pada satu kueri khusus dengan kesalahan Damerau. Dari 60 kali pengujian yang terlihat dalam Gambar 6 dapat disimpulkan bahwa sistem sangat baik diimplementasikan pada kueri khusus. Pada kueri biasa, sistem memiliki akurasi yang buruk pada kedua jenis kesalahan. Hasil pengoreksian sistem dapat lebih jelas dilihat pada Lampiran 3. Evaluasi Sistem Proses pengujian sistem pada 30 jenis kueri khusus dihasilkan 10 kata usulan dari kata yang akan dikoreksi sehingga didapatkan hasil bahwa ada sebanyak 18 kueri khusus yang menghasilkan kata usulan yang diinginkan. Hasil untuk kueri khusus ini cukup baik mengingat bahwa kata yang salah tersebut merupakan sebuah frasa yang dipengaruhi sangat besar oleh pasangan frasanya. Pada pengujian ini, sistem berhasil mengembalikan kata usulan yang tepat pada 18 kueri khusus dengan kesalahan konteks dari 30 percobaan dan 17 kueri khusus dengan kesalahan Damerau dari 30 percobaan.
9
Akurasi yang dihasilkan 60% pada kueri khusus dengan kesalahan konteks dan 56.67% pada kueri khusus kesalahan Damerau. Proses pengujian sistem pada 30 jenis kueri biasa dihasillkan 10 kata usulan dari kata yang akan dikoreksi maka didapatkan hasil bahwa 30 kueri biasa tersebut tidak menghasilkan kata usulan yang diinginkan atau tepat secara persepsi manusia, tetapi jika dibangkitkan program untuk menghasilkan lebih dari 10 kata usulan maka ada kemungkinan kata usulan yang tepat akan muncul. Hal itu dikarenakan banyaknya katakata yang ada di sekitar kata yang salah atau kata-kata yang terdapat dalam kueri yang mempengaruhi proses pengajuan kandidat kata usulan sedangkan sistem hanya memunculkan 10 kata usulan saja sehingga belum tentu kata usulan yang tepat tersebut masuk ke dalam kata usulan yang diajukan. Adanya pasangan frasa yang memiliki nilai 1 tetapi jika dianalisis berdasarkan persepsi manusia tidak memiliki keterkaitan antar konteks. Hal ini dikarenakan pasangan kata tersebut muncul satu kali pada seluruh dokumen. Tabel 4 akan menunjukkan contoh pasangan kata dengan nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks. Tabel 5. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks Pasangan frasa Pena namanya
Nilai 1
Pabrik terbunuh
1
Terbuka berhias
1
Ipb titipkan
1
Munculnya pasangan frasa pada Tabel 5. tersebut dikarenakan bahwa frekuensi munculnya kata, misalnya: “namanya” setelah kata “pena” sebanyak 1 kali dan munculnya kata “namanya” sebanyak 1 kali dalam korpus sehingga berdasarkan rumus peluang bersyarat didapatkan nilai peluang frasa tersebut sebesar 1 yang merupakan hasil dari: Frekuensi (namanya|pena) = 1 = 1 Jumlah kata “namanya” 1 Kejadian ini banyak terdapat pada korpus sehingga mengakibatkan pemberian kata usulan oleh sistem tidak sesuai dengan yang diinginkan. Minimnya metode untuk
menentukan kandidat kata usulan menyebabkan hasil yang tidak begitu baik. Penentuan kata usulan hanya menggunakan nilai peluang sebagai acuan belum menjawab permasalahan ini terlebih pada jenis kueri biasa yaitu kueri yang dipengaruhi oleh banyak kata di sekitar kata yang salah pada kueri. Selain itu adanya pasangan kata yang tidak memiliki arti secara KBBI tetapi masuk ke dalam kamus frasa, hal itu mungkin disebabkan kesalahan pada pemrosesan dokumen yaitu pada tahap parsing dan tokenisasi. Tabel 6 menunjukkan contoh kata yang tidak memiliki arti dalam KBBI tetapi termasuk dalam kamus frasa. Tabel 6. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki arti dalam KBBI Pasangan frasa
Nilai
Tdc tdg
1
Ppic sumbagut
1
Lkj zaim
1
Shih fang
1
Wto tipuan
1
Pasangan frasa pada Tabel 6 dikarenakan pemilihan korpus sebagai data latih kurang diperhatikan sehingga banyak terdapat katakata yang tidak memiliki arti sama sekali dalam KBBI. Selain itu nilai peluang yang besar juga belum mewakili keterkaitan antar konteks dari setiap pasangan kata, justru pasangan kata dengan nilai peluang yang kecil yang memiliki keterkaitan antar konteks berdasarkan persepsi manusia. Tabel 7 akan menunjukkan contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil. Tabel 7. Contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil Pasangan frasa
Nilai
Agroindustri pertanian
0.000197981
Irigasi petani
0.000627353
Bayam tanaman
0.000713776
Sawah lahan
0.000860585
Pertanian produksi
0.000968992
10
Akurasi yang rendah yang dihasilkan oleh sistem juga dikarenakan oleh pembuangan stopwords pada pemrosesan offline. Ada sebanyak 733 kata yang dimasukkan pada stopwords. Dari 733 kata tersebut, banyak kata-kata yang tidak seharusnya dibuang atau dijadikan menjadi stopwords karena dianggap masih memiliki makna dan dapat mewakili penciri dari sebuah dokumen. Contoh kata yang termasuk stopwords yaitu dicontohkan, dan jika dianalisis kata tersebut memiliki makna dan dapat mempengaruhi secara konteks dalam kalimat sehingga harus diperhatikan kembali kata yang akan dimasukkan ke dalam stopwords. Sesuai dengan judul yang digunakan dalam penelitian ini bahwa penelitian ini memperhatikan konteks dari sebuah kalimat, sistem akan mencari semua kata yang berhubungan secara konteks dengan kata-kata yang ada dalam kueri dan karena banyak kata yang bermakna telah dibuang pada pemrosesan offline maka sistem tidak berhasil menemukan kata yang terkait secara konteks dengan kata-kata yang ada dalam kueri sehingga sistem menghasilkan kata usulan yang tidak sesuai dengan yang diharapkan. Kelebihan: • Penggunaan nilai peluang dalam proses koreksi frasa sangat baik dilakukan pada frasa.
Gambar 7 Antarmuka sistem. Proses yang terjadi pada sistem hanya pada button “Koreksi” dimana sistem akan menerima dari pengguna berupa kueri masukan dan proses yang terjadi adalah kueri masukan yang telah dimasukkan akan diproses terlebih dahulu menghasilkan katakata tunggal yang kemudian akan diperiksa ke dalam kamus frasa lalu dilakukan proses pencarian kata usulan dan output yang dihasilkan adalah kata-kata tunggal yang menjadi kata usulan. KESIMPULAN DAN SARAN
Kekurangan: • Koreksi frasa berbasis konteks belum menghasilkan koreksi frasa yang akurat dikarenakan metode ini hanya menggunakan nilai peluang dari setiap pasangan kata dimana nilai tersebut belum tentu mewakili keterkaitan antar kata. Antarmuka Sistem Antarmuka sistem koreksi frasa Bahasa Indonesia berbasis konteks terdiri atas text box (intuk input kueri masukan), button untuk melakukan proses koreksi dari kueri masukan dan output area untuk menampung hasil proses koreksi. Perancangan antarmuka sistem ini dapat dilihat pada Gambar 7.
Kesimpulan Hasil penelitian menunjukkan pengembangan sistem koreksi frasa Bahasa Indonesia menggunakan nilai peluang bersyarat dari setiap frasa cukup baik untuk diimplementasikan pada kueri masukan yang berupa frasa. Hal ini terbukti dari 30 masukan kueri berupa frasa, terdapat 18 masukan kueri yang menghasilkan kata usulan yang sesuai dengan yang diinginkan. Pada kueri biasa, sistem koreksi frasa belum mampu menyelesaikan dengan baik. Hal ini terbukti dari 30 masukan kueri biasa, sistem tidak menghasilkan kata usulan sesuai dengan yang diinginkan. Saran Beberapa hal yang perlu dilakukan untuk pengembangan lebih lanjut adalah sebagai berikut: 1.
Memperhatikan pemilihan yang lebih berkualitas.
korpus
11