UJI AKURASI MESIN PENERJEMAH STATISTIK (MPS) BAHASA INDONESIA KE BAHASA MELAYU SAMBAS DAN MESIN PENERJEMAH STATISTIK (MPS) BAHASA MELAYU SAMBAS KE BAHASA INDONESIA Ibnu Hadi Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura
[email protected] Abstract - Language is an important means of communication for humans, because language make we can find out the information that we need, at other side we can convey our ideas. With the rapidly development of technology in all sectors, nowdays the machine translation has been developed to overcome language translation problems. Statistical machine translation is an approach to machine translation with translation results generated on the basis of statistical models where parameters are taken from the results of the analysis of bilingual text corpus (parallel corpus). Parallel corpus is a pair of corpus that contain sentences in a language and the translation. The goal of this research is to develop and implement of statistical machine translation for translation from Indonesian into Sambas Malay and translation from Sambas Malay into Indonesian, and conduct testing to obtain the value of accuracy and quality of statistical machine translation, and also to conduct testing to obtain the value of accuracy and quality of statistical machine translation. In this study are conducted two tests, the first conducted tests on statistical machine translation of Indonesian into Sambas Malay translation and second test on statistical machine translation of Sambas Malay into Indonesian translation. On test 1 (Statistical Machine Translation of Indonesian to Sambas Malay) generate the value of BLEU score of 0.5555 or 55% while on Test 2 (Statistical Machine Translation of Sambas Malay to Indonesian) produces BLEU score of 0.4950 or 49%. Keywords : machine translation, statistical machine translation, corpus, parallel corpus, BLEU score.
1.
Pendahuluan Bahasa merupakan alat komunikasi yang penting bagi manusia, karena dengan bahasa kita dapat mengetahui informasi yang kita butuhkan, selain itu kita dapat menyampaikan ide dan gagasan kita melalui bahasa. Fungsi bahasa bagi manusia selain sebagai media untuk mengekspresikan diri, perasaan, pikiran, keinginan serta kebutuhannya, baik sebagai makhluk pribadi maupun sosial, serta sebagai alat integrasi dan adaptasi sosial antar manusia dalam mengembangkan peradabannya.
Indonesia memiliki keragaman bahasa dan budaya yang luar biasa. Badan Pengembangan dan Pembinaan Bahasa serta Kementerian Pendidikan dan Kebudayaan (Kemendikbud) mencatat sedikitnya ada 442 bahasa yang dimiliki Indonesia yang terungkap dalam Kongres Bahasa ke-9 yang digelar 2008 silam. Pada 2012, penelitian berlanjut dengan mengambil sampel di 70 lokasi di wilayah Maluku dan Papua. Hasil dari penelitian itu, jumlah bahasa dan sub bahasa di seluruh Indonesia mencapai 546 bahasa dan kemungkinan jumlahnya akan terus bertambah karena penelitian yang dilakukan belum selesai (Akunto, 2012) [1]. Dengan pesatnya perkembangan teknologi disegala bidang, saat ini sedang dikembangkan mesin penerjemah untuk mengatasi masalah penerjemahan bahasa. Mesin penerjemah merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Akan tetapi, kualitas dari hasil terjemahan tersebut masih mengandung keterbatasan, belum memberikan hasil terjemahan yang akurat dan terkadang menyebabkan hilangnya arti dan maksud yang terkandung dalam suatu kalimat. Mesin penerjemah statistik merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks bilingual (korpus paralel). Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Korpus berisi teks paralel yang merupakan hasil text mining yang memperoleh pola berupa pasangan teks dari suatu bahasa ke bahasa lain. Penerjemahan dengan metode mesin penerjemah statistik
menghasilkan terjemahan yang lebih baik dibandingkan dengan hanya terjemahan kata demi kata, dengan syarat kualitas korpus paralel yang dimasukkan ke dalam sistem mempunyai kualitas baik dan cukup banyak jumlahnya (Ginting dan AZ, 2011) [2]. Berdasarkan masalah di atas, penulis melakukan penelitian untuk membangun dan mengimplementasikan mesin penerjemah statistik Bahasa Indonesia – Bahasa Melayu Sambas. Selanjutnya penulis melakukan pengujian untuk mengetahui nilai akurasi dan kualitas terjemahan pada mesin penerjemah statistik Bahasa Indonesia – Bahasa Melayu Sambas. Pada penelitian ini penulis menggunakan korpus teks paralel Bahasa Indonesia dan Bahasa Melayu Sambas. 2. Landasan Teori 2.1 Definisi Penerjemahan Dalam Kamus Besar Bahasa Indonesia (KBBI) kata “terjemah/ menerjemahakan” merupakan menyalin (memindahakan) suatu bahasa ke bahasa lain atau mengalihbahasakan. Selain itu, Hoed dalam Amalia (2007:1) [3] mengemukakan bahwa “penerjemahan adalah kegiatan mengalihkan secara tertulis pesan dari teks suatu bahasa (misalnya bahasa Inggris) ke dalam teks bahasa lain (misalnya bahasa Indonesia)”. Catford menyatakan (1965:20) [4] bahwa “the replacement of textual material in one language (SL) by equivalent textual material in another language (TL).” yang diartikan sebagai pergantian materi tekstual dari suatu bahasa sumber (BSu) secara sepadan ke dalam bahasa target (BT). Yang dimaksud dengan source language (bahasa sumber) dan receptor language (bahasa target) adalah; source language adalah bahasa yang akan diterjemahkan, sedangkan yang dimaksud dengan receptor language adalah bahasa hasil terjemahan. Berdasarkan pengertian tersebut, penulis akan memfokuskan pada analisis teks bahasa Melayu Sambas sebagai bahasa sumber dan bahasa Indonesia sebagai bahasa target dan sebaliknya.
2.2 Mesin Penerjemah (Machine Translation) Mesin penerjemah (machine translation) merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Ada beberapa pendekatan untuk machine translation seperti pendekatan dengan menggunakan aturan rule-based machine translation), pendekatan dengan menggunakan contoh (example-based machine translation), dan pendekatan dengan menggunakan model statistik (statistical machine translation). Dalam mesin penerjemah statistik, terdapat 3 komponen yang terlibat dalam proses penerjemahan dari satu bahasa ke bahasa lain yaitu : language model, translation model, dan decoder (Manning dan Schutze, 2000:486) [5]. Language model P(T)
T
S
Translation model 𝑃 𝑆𝑇
Decoder T=argmax , P(T|S)
T’
Gambar 1. Komponen Mesin Penerjemah Statistik 2.3 Automatic Evaluation Sitem evaluasi otomatis yang populer saat ini adalah BLEU (Bilingual Evaluation Understudy). BLEU adalah sebuah algoritma yang berfungsi untuk mengevaluasi kualitas dari sebuah hasil terjemahan yang telah diterjemahkan oleh mesin dari satu bahasa alami ke bahasa lain. BLEU mengukur modified ngram precission score antara hasil terjemahan otomatis dengan tejemahan rujukan dan menggunakan konstanta yang dinamakan brevity penalty. Rumus BLEU sebagai berikut (Tanuwijaya, 2009) [6] : 1 𝑖𝑓 𝑐 > 𝑟 𝐵𝑃𝐵𝐿𝐸𝑈 = (1−𝑟/𝑐) 𝑖𝑓 𝑐 ≤ 𝑟 𝑒 𝑃𝑛 =
𝐶𝜖 𝑐𝑜𝑟𝑝𝑢𝑠 𝑛 −𝑔𝑟𝑎𝑚𝜖𝐶 𝐶𝜖 𝑐𝑜𝑟𝑝𝑢𝑠 𝑛 −𝑔𝑟𝑎𝑚𝜖𝐶
BLEU = 𝐵𝑃𝐵𝐿𝐸𝑈 . 𝑒
𝑐𝑜𝑢𝑛𝑡 𝑐𝑙𝑖𝑝 (𝑛 −𝑔𝑟𝑎𝑚 ) 𝑐𝑜𝑢𝑛𝑡 (𝑛 −𝑔𝑟𝑎𝑚 )
𝑁 𝑛 −1 𝑤 𝑛
log 𝑝 𝑛
Keterangan : BP = brevity penalty c = jumlah kata dari hasil terjemahan otomatis r = jumlah kata rujukan
𝑃𝑛 = modified precission score 𝑤𝑛 = 1/N (standar nilai N untuk BLEU adalah 4) 𝑝𝑛 = jumlah n-gram hasil terjemahan yang sesuai dengan rujukan dibagi jumlah ngram hasil terjemahan.
Korpus Paralel
Korpus Bahasa Indonesia dan Melayu Sambas
Korpus Bahasa Indonesia
Pemodelan
Pemodelan Bahasa Oleh SRLIM
3. Arsitektur Sistem
Tabel Model Bahasa
Vocabulary, tabel model translasi, dan word alignment
Korpus Paralel
Korpus Bahasa Indonesia dan Melayu Sambas
Korpus Bahasa Melayu Sambas
Pemodelan Translasi Oleh Giza++
Masukan : Kalimat Sumber Bahasa Melayu Sambas
Keluaran : Kalimat terjemahan Bahasa Indonesia
Decoding Oleh Moses
Pemodelan Skor BLEU
Pemodelan Bahasa Oleh SRLIM
Tabel Model Bahasa
Evaluasi Hasil Terjemahan
Pemodelan Translasi Oleh Giza++
Skor Manual
Gambar 3. Arsitektur Sistem mesin penerjemah statistik dari Bahasa Melayu Sambas ke Bahasa Indonesia.
Vocabulary, tabel model translasi, dan word alignment
Masukan : Kalimat Sumber Bahasa Indonesia
Decoding Oleh Moses
Keluaran : Kalimat terjemahan Bahasa Melayu Sambas
3.1 Korpus Teks Paralel Pada penelitian ini, terdapat dua buah korpus paralel yang digunakan yaitu korpus paralel Bahasa Melayu Sambas dan korpus paralel Bahasa Indonesia yang berupa cerita rakyat daerah Kabupaten Sambas.
Skor BLEU Evaluasi Hasil Terjemahan Skor Manual
Gambar 2. Arsitektur Sistem mesin penerjemah statistik dari Bahasa Indonesia ke Bahasa Melayu Sambas.
Korpus paralel 1
Korpus paralel 2
ini sebuah cerita orang kita di Hulu
ito' kesah urang kitte
di Ulu
Tempapan
Tempapan
sejarah orang Hulu Tempapan dulu
sejarah urang ulu tempapan dolo' ,
, ada dua buah rumah
ade dua' buah rumah
tetapi kakek raksasa itu tidak
tapi nek gargasi daan ngabolkan
mengabulkan permintaan sannong
permintaan sannong
tetapi sannong hendak atau ingin
tapi sannong tatap nak memilikinye
memiliki ketiga permata itu
ketige batu permate iye
suatu hari sannong mencurinya
suatu hari sannong nyurinye
…
…
Gambar 4. Contoh Korpus Paralel
4. Hasil Pengujian 4.1 Pengujian 1 Pengujian 1 adalah pengujian terhadap terjemahan dari bahasa Indonesia ke bahasa Melayu Sambas. Tabel 1. Kalimat Bahasa Sumber pada Pengujian 1 No 1 2 3 4 5 6 7 8
9 10
Kalimat Sumber Bahasa Indonesia banyak benar lada si bujang ya tadi pagi dia jual lada dua karung lagi ke pasar iya banyak benar ladanya naik daun dia tahun ini pasti banyak uangnya beruntunglah siapa yang mendapatkannya kamu saja jannah pacaran sama dia tetapi dia tidak suka sama mulut ember karena dia itu tulang besi kerja pun cepat lihat saja banyak kebunnya iya dia tidak seperti kamu tulang semut baru kerja sedikit sudah sakit-sakitan abang memang tebal muka bu tidak dia liat kawannya semua banyak kebun terserah dia saja jannah biar nanti lama baru kawin dia itu sudah kamu simpankah ikan takut nanti dimakan kucing sudah bu mungkin hanya kucing kepala hitam yang akan menghabiskannya begitulah akhir hidup tan unggal mati lemas di dalam peti pada tahun 1345
Tabel 2 Kalimat Hasil Pengujian 1 No 1 2 3 4 5 6 7 8
9 10
Kalimat Bahasa Target Hasil Terjemahan (Bahasa Melayu Sambas) banyak inyan lada si bujang i tade' pagi die jual lada dua' karung age' ke pasar ao' banyak inyan ladanya naik dawon die taon to' pasti banyak uangnya beruntunglah sape nang mendapatkannya kau aja' jannah pacaran same die pokoknye die nda'an suke same mulut ember barang die tulang basi kerajje pun cappat liat aja' banyak kebunnya ao' die daan macam kau tulang semut baru kerajje tinggali dah sakit-sakitan abang ja' tebal muka ma' nda' die liat kawannya semua banyak kabon terserah die aja' jannah biar kala' lama' baru tibetibe die dah kau simpankah ikan takut kala' dimakan kucing udahan ma' mungkin ja' kucing kepala hitam yang na' menghabiskannya maklumlah akhir idup tan unggal mati lemas di dalam peti pade taon 1345
Tabel 3. Kalimat Referensi pada Pengujian 1 No 1 2 3 4 5 6 7 8
9 10
Kalimat Referensi Bahasa Melayu Sambas banyak inyan lade si bujang i tade' pagi die jual lade dua' karung age' ke pasar ao' banyak inyan ladenye naik dawon die taon to' pasti banyak duitnye beruntonglah sape yang dapatkannye kau aja' jannah becinte dangan die tapi die nda'an suke dangan mulut ember barang die tulang basi kerajje pun cappat liat aja' banyak kabonnye ao' die daan macam kau tulang sammut baro' kerajje sikit dah sakit-sakitan abang ja' tabal muke ma' nda' die liat kawannye semue banyak kabon suka'ati die aja' jannah biar kala' lama' baro' kawen die dah kau simpanke ikan takut kala' dimakan kucing udahan ma' mungkin ja' kucing kepala hitam yang na' ngabiskannye gayyelah akhir idup tan unggal mati lamas di dalam patti pade taon 1345
4.2
Pengujian 2 Pengujian 2 adalah pengujian terhadap terjemahan dari bahasa Melayu Sambas ke bahasa Indonesia. Tabel 4. Kalimat Bahasa Sumber pada Pengujian 2 No 1 2 3 4 5 6 7 8 9 10
Kalimat Sumber Bahasa Melayu Sambas paloh ye name daerah yang lattaknye ade di ujong sambas raden sandi ye dari keluarge urang baik-baik berasal dari keturunan raje sambas perangainye ye bede lalu dangan ade' berade'nye yang laing kebiasaan yang karrap dikrajekannye ye beburu mun dah beburu ye biasenye dua' tigge ari baro' balik ke rumah urang tuenye pun sekali-sekalilah naggorkan die sandi kau to' tang laing inyan dangan ade' berade' mu ari to' aku na' paggi beburu age' jadi bagus kau tinggal di rumah aja' aku minta' mun aku paggi usah kau ceritekan dangan ayah ape age' dangan umma'
Tabel 5. Kalimat Hasil Pengujian 2 No 1 2 3 4 5 6 7 8 9 10
Kalimat Bahasa Target Hasil Terjemahan (Bahasa Indonesia) paloh itu nama daerah yang lattaknye ada di ujong sambas raden sandi itu dari keluarge orang baik-baik berasal dari keturunan raja sambas perangainye itu bede lalu dengan adik berade'nye yang laing kebiasaan yang karrap dikrajekannye itu berburu bila sudah berburu itu biasanya dua tiga hari ketika pulang ke rumah orang tuenye pun sekali-sekalilah naggorkan dia sandi kau ini mengapa laing benar dengan adik beradik mu hari ini aku akan pergi berburu lagi jadi bagus kau tinggal di rumah saja aku minta bila aku pergi jangan kau ceritekan dengan bapaknya apa lagi dengan ibu
4.3.2 Hasil Penilaian Manual Tabel 8. Hasil Penilaian Manual Kalimat Hasil Terjemahan
Pengujian 1
Pengujian 2
No 1 2 3 4 5 6 7 8 9 10
Kalimat Referensi Bahasa Indonesia paloh itu nama daerah yang letaknya ada di ujung sambas raden sandi itu dari keluarga orang baik-baik berasal dari keturunan raja sambas perilakunya itu sangat berbeda dengan saudarasaudaranya yang lain kebiasaan yang sering dikerjakannya adalah berburu kalau sudah berburu itu biasanya dua atau tiga hari baru pulang ke rumah orang tuanya pun sekali-sekali menegur dia sandi kau ini mengapa lain benar dengan saudarasaudaramu hari ini aku akan pergi berburu lagi jadi lebih baik kau tinggal di rumah saja aku minta bila aku pergi jangan kau ceritakan dengan ayah apa lagi dengan ibu
4.3 Hasil Penilaian 4.3.1 Hasil Penilaian Otomatis Tabel 7. Akurasi Penilaian Mesin Penerjemah Statistik Pengujian
BLEU score
Persentase Akurasi
Pengujian 1`
0.5555
55%
Pengujian 2
0.4950
49%
C,R
P = 100%
Tursina S.T., M.Cs
C = 97, R = 121
80.16%
Harianto S.Pd Sudiarti SE RataRata
C =64 , R = 121 C = 94, R = 121
Harianto S.Pd
C = 57, R=92
Emi Setya Sudiarti SE RataRata
Tabel 6. Kalimat Referensi pada Pengujian 2
𝑪
Ahli Bahasa
𝑹
52.89% 77.68% 70.24%
C = 56, R=92 C = 63, R= 92
61.95% 60.86% 68.47% 63.76%
Tabel 9. Hasil Perhitungan BLEU score Kalimat Hasil Terjemah an Pengujian 1 Pengujian 2
Ahli Bahasa Tursina S.T., M.Cs Sudiarti, SE Harianto, S.Pd Harianto, S.Pd Sudiarti, SE Emy Setya
BLEU score
0.5783 0.5142 0.1466 0.2604 0.4311 0.3456
RataRata/Pers entase 0.4130 ±41% 0.3457 ±34%
5. Kesimpulan Berdasarkan uraian yang telah dipaparkan sebelumnya, maka kesimpulan yang dapat diambil sebagai berikut : 1. Mesin penerjemah statistik dapat diimplementasikan untuk menterjemahkan Bahasa Indonesia ke bahasa Melayu Sambas dan menerjemahkan Bahasa Melayu Sambas ke Bahasa Indonesia 2. Kalimat referensi sangat mempengaruhi penilaian, semakin dekat jumlah kata hasil terjemahan dengan kalimat referensinya maka akan semakin baik. 3. Nilai persentase akurasi yang dihasilkan pada Pengujian 1 (Mesin Penerjemah
Statistik Bahasa Indonesia ke Bahasa Melayu Sambas) sebesar 55% dan pada Pengujian 2 (Mesin Penerjemah Statistik Bahasa Melayu Sambas ke Bahasa Indonesia) dengan persentase sebesar 49%. 4. Penilaian yang dilakukan oleh ahli bahasa menghasilkan nilai BLEU yang berbedabeda tergantug pemahaman oleh ahli bahasa. Referensi [1] Akuntono, Indra. 2012. Mau Tahu Jumlah Ragam Bahasa di Indonesia?. Kompas.com. 9 Juni 2013. [2] Ginting, Adres, dan Nazori AZ. 2012. Penerjemah Dua Arah Bahasa Indonesia Ke Bahasa Daerah (Karo) Menggunakan Teknik Statistical Machine Translation (SMT) Sebagai Fitur Pada Situs Web Untuk Meningkatkan Web Traffic. Jurnal Telematika MKOM. Vol. 4 No. 1. Hlm. 6164. 3 Maret 2013.
[3]
[4]
[5]
[6]
Amalia, Farida. 2007. Ideologi Dalam Penerjemahan. Universitas Pendidikan Indonesia. 21 Oktober 2013. J.C. ,Catford. 1965. A Linguistic Theory Of Translation: An Essay In Applied Linguistics. Walton Street : Oxford University Press. 19 Juli 2013. Manning, Christopher D. dan Schutze, Hinrich. 2000. Foundations Of Statistical Natural Language Processing. London : The MIT Press Cambridge Massachusetts. 10 Juli 2013. Tanuwijaya, Hansel. 2009. Penerjemahan Inggris-Indonesia Menggunakan Mesin Penerjemah Statistik Dengan Word Reordering dan Phrase Reordering. Jakarta : Universitas Indonesia. 12 Juni 2013.
Biografi Ibnu Hadi, lahir di Sambas, Kalimantan Barat, Indonesia, 10 Juli 1988. Memperoleh gelar Sarjana dari Program Studi Teknik Informatika Universitas Tanjungpura, Pontianak, Indonesia, 2014.