BAB 1 PENDAHULUAN
1.1 Latar Belakang Banyak sekali penelitian yang telah dilakukan dalam bidang bahasa dan teknologi, namun tidak semua bahasa mampu diintegrasikan ke dalam semua teknologi yang telah diciptakan karena setiap bahasa memiliki karakteristik masingmasing. Berangkat dari pernyataan tersebut, jika setiap bahasa yang ada di dunia hendak diintegrasikan ke dalam teknologi, diperlukan penelitian yang terfokus pada bahasa tersebut untuk menentukan algoritma dan aturan yang digunakan. Bahasa Indonesia merupakan bahasa yang penting di wilayah Asia Tenggara. Menurut Sneddon (2003:225), bahasa Indonesia menjadi bahasa nasional terpopuler ke-4 di dunia dan negara tetangga lain. Hal tersebut menjadikan bahasa Indonesia sebagai tema yang signifikan untuk dijadikan bahan penelitian. Setiap bahasa mempunyai kaidah-kaidah tersendiri dan tidak lepas dari semua aturan yang berlaku. Sehingga setiap pengguna bahasa tidak boleh menggunakan bahasa yang salah karena hal tersebut akan merusak citra bahasa itu sendiri, namun sering ditemukan penggunaan kata yang salah oleh masyarakat, sebagai contoh kata “dirubah” yang seharusnya menggunakan kata “diubah”. Oleh karena itu, dengan mempelajari morfologi suatu bahasa dapat menambah pengetahuan dan memahami seluk-beluk pembentukan kata yang sesuai dengan kaidah bahasa yang baik dan benar secara gramatikal maupun semantik. Maka dari itu dalam penelitian ini akan dibuat sebuah morphological analyzer dan lemmatizer yang dalam penggunaanya dapat dimanfaatkan untuk melihat bagaimana suatu kata terbentuk, apa saja kata dasarnya, dan apa saja informasi linguistik yang dikandung kata tersebut. Berdasarkan segala informasi yang didapat pada morphological analyzer dan lemmatizer, diharapkan dapat membantu mempelajari suatu kata dan proses pembentukannya serta bentuk dasar dari suatu kata yang berimbuhan. Lebih jauh lagi morphological analyzer dan lemmatizer dapat dijadikan referensi yang cukup baik untuk pengembangan search engine dan machine translation, maupun perangkat-perangkat untuk pemrosesan bahasa alami lainnya.
1
2 Untuk melanjutkan penelitian dalam bidang bahasa dan teknologi seperti search engine dan machine translation diperlukan sebuah morphological analyzer sebagai landasan utamanya. Morphological analyzer berguna untuk menentukan proses pembentukan kata-kata. Penelitian yang membahas tentang Morphological analyzer antara lain jurnal yang dipublikasikan oleh Pisceldo, Mahendra, Manurung dan Arka (2008), serta Larasati, Kuboň, dan Zeman (2011). Selain
morphological
analyzer
yang
berfungsi
untuk
mengetahui
pembentukan kata, lemmatizer berfungsi untuk mengetahui bentuk dasar dari suatu kata berimbuhan. Penelitian mengenai lemmatizer ini sudah dilakukan oleh Asian, Williams, dan Tahaghoghi (2005) serta Suhartono, Christiandy, Rolando (2014). Berangkat dari latar belakang di atas, maka akan dikembangkan algoritma untuk morphological analyzer dan lemmatizer yang memiliki performa lebih baik dari hasil penelitian-penelitian sebelumnya dengan harapan dapat dicapai morphological analyzer dan lemmatizer yang memiliki tingkat persentase keberhasilan yang lebih tinggi, serta mampu menangani reduplikasi dan kata gabungan.
1.2 Rumusan Masalah Rumusan masalah dari penelitian kami adalah: 1. Belum ada penelitian dalam bidang natural language processing untuk bahasa Indonesia yang menggabungkan morphological analyzer dengan lemmatizer sekaligus dalam satu aplikasi. 2. Sampai saat ini, belum ada morphological analyzer yang mampu menganalisis kata yang terdiri dari dua kata namun bergabung ketika proses afiksasi, seperti kata “warga negara” ketika ditambahkan imbuhan menjadi “kewarganegaraan” yang merupakan satu kata saja. 3. Sampai saat ini, belum ada lemmatizer yang mampu mencari bentuk kata dasar dari suatu kata gabung yang mengandung konfiks dan reduplikasi yang mengandung afiks, seperti kata “kewarganegaraan” yang ketika dicari bentuk dasarnya harusnya menjadi “warga negara”, selain itu kata “berlapis-lapis” yang ketika dicari bentuk dasarnya harusnya menjadi “lapis”.
3 1.3 Hipotesis Hipotesis dari penelitian kami adalah : 1. H0 : Algoritma yang dikembangkan mampu menganalisa kata-kata dalam bahasa Indonesia dengan baik, sehingga algoritma morphological analyzer dapat membentuk kata produktif dan kata tidak produktif yang sesuai aturan sebesar 80% dan untuk algoritma lemmatizer dapat menemukan bentuk dasar dari kata berimbuhan sebesar 80%. 2. H1 : Algoritma yang dikembangkan tidak mampu menganalisa kata-kata dalam bahasa Indonesia dengan baik, sehingga algoritma morphological analyzer dapat membentuk kata produktif dan kata tidak produktif yang sesuai aturan kurang dari 80% dan untuk algoritma lemmatizer dapat menemukan bentuk dasar dari kata berimbuhan kurang dari 80%.
1.4 Ruang Lingkup Untuk pembahasan yang lebih fokus dan terarah, maka pembahasan akan dibatasi dengan ruang lingkup sebagai berikut : 1. Pengujian data akan dilakukan dengan mengambil artikel dari koran dan website. Artikel yang akan dianalisis diambil dari 13 jenis artikel meliputi regional, nasional, politik, pemilu, edukasi, internasional, perjalanan, ekonomi, olahraga, kesehatan, hiburan, otomotif, dan teknologi. Masingmasing kategori akan diambil sebanyak 1 artikel. 2. Kata-kata yang digunakan sebagai input hanyalah kata-kata yang ada pada Kamus Besar Bahasa Indonesia edisi ketiga yang terbit pada tahun 2005. 3. Kata ulang yang ditangani hanya kata ulang sempurna (tidak berubah bunyi) dan kata ulang sempurna berimbuhan. 4. Algoritma ini hanya menangani prefiks, sufiks, dan konfiks. Infiks tidak ditangani karena kata-kata dalam bahasa Indonesia yang mengandung infiks sudah ada di dalam Kamus Besar Bahasa Indonesia (Contoh : gerigi, gemetar). 5. Penambahan imbuhan hanya berdasarkan kelas kata, tidak berdasarkan semantik. 6. Hanya satu kata yang dapat diterima sebagai input-nya.
4 1.5 Tujuan dan Manfaat 1.5.1
Tujuan Tujuan yang ingin dicapai dalam penelitian kami adalah mengembangkan
algoritma dalam morphological analyzer dan lemmatizer untuk bahasa Indonesia berbasis PHP.
1.5.2
Manfaat
1. Edukasi Bahasa Penelitian ini akan memberikan keuntungan bagi dunia pendidikan. Tidak hanya bagi masyarakat Indonesia, tapi juga bagi orang asing yang ingin belajar bahasa Indonesia. 2. Peningkatan Performa Search Engine dan Machine Translation Pembentukan kata dasar dari kata berimbuhan bisa meningkatkan performa dari search engine dan machine translation, karena proses pengambilan data dari database lebih mudah jika telah diketahui kata dasarnya. 3. Penelitian Memberi kontribusi dalam dunia penelitian, khususnya dalam penelitian di bidang lematisasi dan analisa morfologi untuk bahasa Indonesia.
1.6 Metode Penelitian Metode Penelitian yang akan kami gunakan : a. Analisis dan Peninjauan Literatur Peninjauan
literatur
untuk
menganalisa
dan
mengembangkan
algoritma dalam morphological analyzer dan lemmatizer. b. Solusi Alternatif Melakukan riset dan analisis mengenai state of the art dalam morphological analyzer dan lemmatizer bahasa Indonesia untuk membuat algoritma yang lebih efektif dan efisien dengan beberapa inovasi.
1.7 Sistematika Penulisan Penulisan skripsi kami dibagi menjadi menjadi lima bab dan isi dari masingmasing bab diuraikan sebagai berikut :
5 a. BAB 1 Pendahuluan Pada bab ini akan dibahas mengenai latar belakang pemilihan topik skripsi, rumusan masalah, hipotesis, ruang lingkup pembahasan, tujuan dan manfaat dari skripsi kami, metode penelitian yang digunakan serta sistematika penulisan yang diterapkan. b. BAB 2 Tinjauan Pustaka Pada bab ini akan dipaparkan mengenai teori-teori yang kami gunakan untuk menunjang dalam penyusunan skripsi kami, serta kami akan mengulas hasil penelitian atau produk sebelumnya yang menjadi batu pijakan kami dalam membuat skripsi kami. c. BAB 3 Metodologi Pada bab ini akan dibahas mengenai kerangka berpikir dalam penyusunan
skripsi kami, metodologi untuk menyelesaikan masalah yang
dipaparkan dalam kerangka berpikir. d. BAB 4 Hasil dan Pembahasan Pada bab ini, kami akan memaparkan uji algoritma, serta evaluasi dari aplikasi yang kami buat. e. BAB 5 Simpulan dan Saran Pada bab ini penulis akan menarik kesimpulan dari hasil uji algoritma serta evaluasi dari bab-bab sebelumnya dan memberikan saran untuk pengembangan aplikasi sejenis yang telah dibuat sebelumnya maupun yang akan dibuat.
6