BAB 1 PENDAHULUAN
1.1
Latar Belakang Masalah
Bahasa Inggris merupakan salah satu bahasa yang sering digunakan baik pada percakapan sehari-hari maupun pada dunia akademik. Penelitian mengenai pemeriksaan dan penguraian Bahasa Inggris menjadi menarik untuk dilakukan karena hampir semua negara di dunia mengadopsi Bahasa Inggris sebagai bahasa kedua setelah bahasa nasional dan bahkan menjadi bahasa resmi di beberapa negara. Aturan sintaksis Bahasa Inggris dapat dianalisis menggunakan algoritma Cocke-Younger-Kasami
untuk
mengetahui
benar
atau
tidaknya
kalimat
berdasarkan aturan sintaksis baku yang telah ditentukan. CYK merupakan algoritma parsing dan keanggotaan (membership) untuk tata bahasa bebas konteks. Syarat untuk penggunaan algoritma tersebut adalah tata bahasa yang akan dianalisis harus berada dalam bentuk normal Chomsky / Chomsky Normal Form (CNF). Bentuk CNF dapat dibuat dari sebuah tata bahasa bebas konteks yang telah mengalami penyederhanaan, yaitu penghilangan useless, unit, dan .[14] Pada penelitian ini akan ditunjukkan bagaimana sintaksis tata bahasa dalam kalimat Bahasa Inggris dapat dikodekan menggunakan algoritma CYK. Beberapa karakteristik kesalahan umum yang sering terjadi pada penulisan kalimat dalam Bahasa Inggris diantaranya adalah : 1.
penggunaan komponen pembentuk kalimat yang tidak sesuai dengan pola kalimat dalam Bahasa Inggris,
Universitas Sumatera Utara
2
2.
penulisan kata yang kurang tepat.
Karakteristik di atas disesuaikan dengan kelengkapan tata Bahasa Inggris yang digunakan. Sedangkan algoritma Levenshtein digunakan untuk mengoreksi kesalahan penulisan kata dalam Bahasa Inggris dengan pendekatan perkiraan perbedaan antara suatu string dengan string sumber. Nilai perbedaan antara strings tersebut dinyatakan sebagai nilai edit distance / jarak Levenshtein yang meliputi tiga operasi dasar, yaitu penyisipan (insertion), penghapusan (deletion), dan penggantian (substitution). Tingkat kesulitan pencocokan string tergantung pada panjang string tersebut. Karena banyak kemungkinan cara untuk mencocokkan nilai edit distance, sehingga diperlukan suatu prosedur untuk menentukan nilai edit distance yang paling kecil.[16] Penelitian sebelumnya yang menjadi acuan peneliti adalah “Aplikasi Program Dinamis Dalam Algoritma Cocke-Younger -Kasami (CYK)” oleh Inas Luthfi dan “Pencocokan Hampiran Untai dengan Program Dinamik” oleh Ruruh Wuryani.
Penelitian-penelitian
tersebut
menginspirasi
penulis
untuk
menggabungkan kedua metode yang digunakan untuk diterapkan pada penelitian ini. Sehingga penulis akan membuat penelitian dengan judul “Implementasi Algoritma Cocke-Younger-Kasami (CYK) dan Levenshtein untuk Mengoreksi Kesalahan Pengejaan Kalimat Bahasa Inggris”. Penelitian ini merupakan tahap awal yang dapat dikembangkan ke arah yang lebih luas, tidak hanya pada studi kasus kalimat Bahasa Inggris, tetapi juga untuk semua bahasa, dan bahkan pada tingkat berikutnya dapat dikembangkan untuk mengalihbahasakan teks Bahasa Inggris ke teks bahasa Indonesia.
Universitas Sumatera Utara
3
1.2
Rumusan Masalah
Berdasarkan latar belakang di atas, maka dikembangkan suatu rumusan masalah sebagai berikut : 1.
Bagaimana mengenali pola kalimat dalam Bahasa Inggris.
2.
Bagaimana mengenali sintaks kata dalam Bahasa Inggris yang jumlahnya sangat banyak dan beragam, ada kemungkianan beberapa kata tidak dikenal apakah sebagai subjek, predikat, objek, atau keterangan.
3.
Bagaimana mengenali subjek, predikat, objek, dan keterangan pada Bahasa Inggris dalam bentuk frase.
4.
Bagaimana menentukan nilai jarak Levenshtein yang terkecil antar string untuk memeriksa apakah penulisan suatu string benar atau salah.
1.3
Batasan Masalah
Batasan masalah merupakan acuan agar penelitian lebih terarah, maka diperlukan batasan-batasan sebagai berikut : 1.
Kalimat yang diperiksa berupa inputan langsung dan file dalam format *.txt dan *.doc dengan maksimal 500.000 karakter atau setara dengan 500 Kb.
2.
Pembagian kata dipisah oleh spasi dan pembagian kalimat dipisah oleh tanda titik, sehingga dari setiap string yang didapat dari kata yang telah dipisahkan dianggap sebagai token.
3.
Bentuk kalimat yang diperiksa terbatas pada bentuk positif dan negatif.
4.
Pemeriksaan terbatas hanya pada bentuk pola kalimat dan penulisan kata dalam Bahasa Inggris.
Universitas Sumatera Utara
4
5.
Aturan pola kalimat dibuat dalam bentuk normal Chomsky dan secara default aturan tersebut dirancang untuk mengenali pola kalimat tunggal, tetapi juga dapat dimodifikasi untuk mengenali pola kalimat majemuk berdasarkan simbol-simbol yang telah dipetakan di dalam aplikasi.
6.
Pemeriksaan grammar dilakukan secara terpisah dari pemeriksaan pola kalimat, grammar tersebut terdiri dari 6 jenis tenses, yaitu bentuk past meliputi simple past dan past perfect tense, bentuk present meliputi simple present, continuous tense, dan perfect tense, dan bentuk future meliputi future tense.
7.
Penentuan jenis kata dilakukan menggunakan alat bantu openNLP.
8.
Kamus yang digunakan berupa file dalam format *.txt yang mengacu pada kamus yang diterbitkan oleh Ashley Bovan.
9.
Aplikasi dibuat dengan menggunakan bahasa pemrograman Ms. Visual C#.
10.
Hasil koreksi pengejaan berupa usulan penulisan kata yang ditampilkan pada text box dan context menu.
11.
Permasalahan ambiguitas pada parsing dan koherensi antar kalimat tidak diujikan pada penelitian ini.
1.4
Tujuan Penelitian
Sejalan dengan permasalahan di atas, tujuan dari penelitian ini adalah sebagai berikut : 1.
Menerapkan algoritma CYK dan Levenshtein untuk melakukan parsing terhadap kalimat dan menentukan jarak Levenshtein antar string dalam Bahasa Inggris menjadi bagian-bagian yang disebut token.
Universitas Sumatera Utara
5
2.
Merancang aplikasi yang dapat memeriksa kesalahan pengejaan pada kalimat Bahasa Inggris yang telah uraikan menjadi tokens.
3.
Mengevaluasi model penulisan dan tata bahasa yang dihasilkan, apakah sudah sesuai dengan penulisan dan pola tata Bahasa Inggris baku.
1.5
Manfaat Penelitian
Manfaat dari pelaksanaan penelitian ini antara lain : 1.
Bagi Institusi Pendidikan a.
Menambah pemahaman mengenai algoritma CYK dan Levenshtein dalam menguraikan kalimat dan mengoreksi penulisan kata khususnya dalam Bahasa Inggris.
b.
Sebagai cikal bakal penelitian yang dapat dikembangkan untuk menguraikan kalimat tidak hanya pada Bahasa Inggris, tetapi juga pada bahasa-bahasa lainnya dan bahkan pada tingkat berikutnya dapat dikembangkan untuk mengalihbahasakan teks Bahasa Inggris ke teks bahasa Indonesia.
c.
Sebagai alat bantu untuk memeriksa dan mengoreksi kesalahan penulisan dalam Bahasa Inggris.
d.
Mengetahui seberapa tepat pencocokan string berdasarkan nilai jarak Levenshtein yang diperoleh.
Universitas Sumatera Utara
6
2.
Bagi Penulis Menambah pengalaman dan pengetahuan praktis dari keadaan sebenarnya dalam
mengimplementasikan
ilmu
pengetahuan
yang
didapat
dari
perkuliahan khususnya di bidang teori bahasa dan otomata.
1.6
Metode Penelitian
Tahapan yang dilakukan dalam penelitian ini adalah: 1.
Studi Literatur Penulisan penelitian ini diawali dengan melakukan pembelajaran literatur pada sejumlah buku, artikel, paper, jurnal, makalah, maupun situs internet mengenai teori bahasa dan otomata, parsing dengan algoritma CYK, dan pendekatan pencocokan string dengan algoritma Levenshtein. Studi literatur tersebut berkaitan dengan : a.
Tata bahasa penulisan Bahasa Inggris yang berkaitan dengan penguraian algoritma CYK, seperti kaidah makna imbuhan, dan kata dasar agar diketahui jenis kata yang digunakan untuk membentuk pola tata bahasa.
b.
Pendekatan pencocokan string dengan algoritma Levenshtein untuk menentukan jarak Levenshtein dalam mengoreksi penulisan kata dalam Bahasa Inggris, dan hal-hal lainnya disesuaikan dengan kebutuhan penelitian.
2.
Analisis dan Perancangan Sistem Pada tahap ini akan dilaksanakan analisis terhadap masalah untuk menjawab pertanyaan ilmiah dengan mengidentifikasi masalah, memodelkan masalah secara konseptual dengan UML, tujuan, dan solusi yang ditawarkan.
Universitas Sumatera Utara
7
Kemudian, perancangan sistem dilakukan untuk merancang atau mendesain suatu aplikasi dengan baik, yang berisikan tahapan-tahapan operasi dalam proses
pengolahan
data
dan
prosedur
untuk
mendukung
aplikasi
tersebut.[15] 3.
Implementasi Sistem Pada tahap ini akan dilaksanakan pengkodean ( coding ).
4.
Pengujian Sistem Dalam tahap ini dilakukan pengujian terhadap sistem yang telah dibangun, seperti malakukan ujicoba proses parsing dan pencocokan string.
5.
Dokumentasi Dalam tahapan ini dilakukan penyusunan laporan dari hasil analisis dan perancangan sistem dalam format penulisan penelitian.
1.7
Sistematika Penulisan
Sistematika penulisan skripsi ini dibagi menjadi lima bab, masing-masing bab diuraikan sebagai berikut : BAB 1
PENDAHULUAN Bab ini menjelaskan latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode penelitian, dan sistematika penelitian.
BAB 2
TINJAUAN PUSTAKA Bab ini menjelaskan teori mengenai pola kalimat Bahasa Inggris, teori bahasa dan otomata, bentuk normal Chomsky, algoritma pengurai CYK, dan pendekatan pencocokan string dengan algoritma Levenshtein.
Universitas Sumatera Utara
8
BAB 3
ANALISIS DAN PERANCANGAN SISTEM Bab ini menjelaskan analisis terhadap masalah untuk menjawab pertanyaan ilmiah dengan mengidentifikasi masalah, memodelkan masalah secara konseptual dengan UML, tujuan, dan yang ditawarkan. Kemudian menjelaskan perancangan tata Bahasa Inggris dalam bentuk normal Chomsky sesuai dengan studi kasus yang diteliti, perancangan matriks penyelesaian parsing tata Bahasa Inggris dengan algoritma CYK, dan tabel proses pencocokan antar string dengan algoritma Levenshtein.[15]
BAB 4
IMPLEMENTASI Bab ini membahas mengenai implementasi aplikasi yang telah dirancang ke dalam bahasa pemrograman dan melakukan pengujian terhadap aplikasi yang telah dibangun.
BAB 5
KESIMPULAN DAN SARAN Bab ini berisikan kesimpulan dari keseluruhan bab-bab sebelumnya dan saran-saran dari penulis yang diharapkan dapat bermanfaat untuk pengembangan selanjutnya.
Universitas Sumatera Utara