BAB I PENDAHULUAN 1.1 Latar Belakang Selama pengamatan dalam dekade terakhir terhadap hasil Penerjemahan Mesin (Machine Translation) ternyata masih terdapat masalah dari segi kualitas translasinya. Kualitas terjemahan mesin pada penerjemahan kata yang ambigu (bermakna lebih dari satu) seringkali belum begitu baik jika dibandingkan dengan kualitas terjemahan manusia. Hal seperti ini, paling sering ditemukan pada terjemahan bahasa yang memiliki perbedaan rumpun. Misalnya, hasil terjemahan bahasa Inggris ke bahasa Indonesia. Menurut Hawkins dan Blakeslee (2004), masalah kualitas seperti ini disebabkan karena sejumlah pengembangan masih memanfaatkan metode yang belum dapat menyukseskan kualitas translasi dengan pendekatan sekali jalan. Contoh metode yang dipakai seperti metode statistik atau aturan grammar. Dengan menggabungkan kedua metode pun (hibrid) belum mencapai hasil yang maksimal. Ini karena pada sisi lain, kebenaran gramatikalitas semata bukanlah pemandu utama bagi sintaksis, akan ada sangat banyak hal yang memberi peran dalam penerjemahan (Moss, 2009). Klasifikasi teks salah satunya juga memiliki peran penting dalam bagian pengolahan bahasa alami dan penelitian ekstraksi ciri (Cox & Worsley, 2010). ElShiekh (2012), melakukan investigasi pada mesin translasi menemukan ada karakteristik pada seluruh mesin translasi, yakni adanya ketidakmampuan mesin untuk menangani fenomena ambiguitas semantis. Disamping hal tersebut, ternyata masih terdapat banyak kesalahan identifikasi pada seluruh tingkatan komponen translasinya. Berdasarkan sejumlah pengamatan, beberapa mesin telah memiliki fitur pelengkap sebagai pendukung disambiguasi (unit variasi morfologi). Salah satu fungsi dari fitur ini adalah penyediaan pemilihan domain keilmuan (disiplin). Sayangnya, metode yang digunakan bersifat statis (harus ditentukan sendiri oleh
1
2
penggunanya). Selain pengguna awam akan dipersulit dalam menentukan domain yang tepat, pemilihan domain tunggal tersebut condong tidak mampu melakukan improvisasi dalam memilih terjemahan yang berkaitan dengan domain pada teks. Terdorong dari banyak rekan yang mengeluhkan kualitas translasi dalam terjemahan berbagai bidang, penulis yang dalam penelitian pengembangan prototipe mesin penerjemah, menemukan bahwa salah satu faktor yang mempengaruhi kualitas disambiguasi mesin translasi sangat bergantung pada kemampuan seleksi disambiguasi berdasarkan urutan domain-domain keilmuan. Untuk memperoleh kelompok domain yang baik, diperlukan perangkingan domain dengan urutan yang saling terkait atau berelasi secara dinamis. Sedangkan, hasil perangkingan dengan menggunakan rumpun metode tak terstuktur (flat), apapun bentuk dan ragam adopsi domain yang digunakan (seperti membagi sub-domain kedalam virtualisasi aktivitas otak, dsb) tidak memberikan hasil perangkingan yang baik untuk mendukung disambiguasi. Ini dikarenakan metode flat tidak dapat menemukan keterkaitan dan relasi antar domain secara presisi. Berdasarkan kendala-kendala dan kondisi sedemikian, penulis kemudian mengembangkan metode atau pendekatan untuk menentukan nilai indeks domain berdasar teks secara otomatis. Metode ini nantinya dapat dimanfaatkan dalam merangkingkan domain dengan urutan pola atau dalam kelompok yang baik, logis dan relasional. Dengan demikian, diharapkan, metode tersebut dapat digunakan untuk membantu seleksi disambiguasi pada tingkat variasi morfologi yang multidomain. Pada penelitian ini, penulis berupaya mengontribusi sisi pengembangan dengan mengusulkan metode penghitungan indeksnya.
1.2 Perumusan Masalah Berdasarkan
uraian
latar
belakang
penelitian,
dapat
dirumuskan
permasalahan utama dalam penelitian, yaitu ”Bagaimana mendesain metode pengindeksan (menentukan nilai indeks kedekatan) yang multi-domain dan
2
3
bersifat relasional, sehingga dapat menghasilkan pola urut perangkingan yang sesuai (berkait dengan domain pada teks)”.
1.3 Batasan Masalah Dalam penelitian dibatasi pada lingkup sebagai berikut: •
Penyusunan struktur domain didasarkan pada struktur disiplin akademik yang berasal dari Wikipedia (pada bagian List of academic disciplines and sub-disciplines). Referensi ini dipilih karena dianggap lebih komprehensif setelah ditinjau terhadap beberapa sumber lain. Terdapat catatan bahwa ada sebagian sub-disiplin yang ditambahkan penulis untuk memperkaya domainnya.
•
Korpus dan lengkapan data domain yang diujicobakan dalam penelitian sebanyak 10 (sepuluh) yang berasal dari Artificial Intelligence, Astronomy, Business, Dance, Geography, Mathematics, Nursing, Physics, Political Theory, dan Theater.
•
Korpus, sumber istilah, dan rasio statistik yang digunakan berasal dari Microsoft Encarta 2009. Korpus sesuai bidangnya dengan domain yang diujicobakan.
•
Indeks kedekatan domain yang diperoleh menggunakan pendekatan yang dikembangkan, yaitu Topological Taxonomy Term Statistical Ratio (T3SR) dan akan dibandingkan dengan metode flat, yaitu Nearest Term Statistical Ratio (NTSR) dan Normalized Nearest Term Statistical Ratio (NNTSR).
•
Penelitian hanya sampai pada pada peninjauan kelogisan dan kelayakan perangkingan yang bertujuan mengobservasi tingkah laku polanya. Tidak sampai pada pengimplementasian pada mesin penerjemah dan uji variasi ragam tulisan. Karenanya, hanya digunakan satu sumber korpus standar (Microsoft Encarta).
3
4
1.4 Tujuan Penelitian Secara garis besarnya poin-poin utama tujuan penelitian ini adalah sebagai berikut: •
Mengembangkan metode Topological Taxonomy Term Statistical Ratio (T3SR) untuk menentukan indeks atau derajat kedekatan terhadap domain/bidang keilmuan. Dari hasil nilai-nilai indeks kedekatannya, kemudian dapat dipakai dalam mengurutkan/merangking domain berdasarkan nilai indeksnya.
•
Menyimpulkan
potensi kelayakannya
melalui
proof
of concept
(implementasi dan pengujian sederhana dengan suatu sumber korpus). Dilakukan
perbandingan
dengan
metode
flat
sederhana
untuk
mengobservasi laku dan polanya.
1.5 Manfaat Penelitian Metode untuk menentukan nilai indeks kedekatan domain yang didesain dapat dimanfaatkan dalam meningkatkan kualitas disambiguasi terjemahan kedepannya. Spesifiknya, metode T3SR yang dirancangkan dapat dipakai sebagai acuan informasi pada proses analisis morfologis dan leksikal (dalam hal ini berisi informasi analisa domain) dalam menentukan disambiguasi terjemahan. Metode pengindeksan juga dapat dimanfaatkan dalam mengklasifikasikan domain (misalnya dengan mengambil domain dengan nilai indeks tertinggi). Karena metode yang didesain bersifat multi domain relasional yang komprehensif dan natural, maka diharapkan hasil disambiguasi pada terjemahan nantinya menjadi lebih akurat. Dilain sisi, karena proses pemilihan domain dapat dilakukan secara otomatis, maka nantinya dapat dimanfaatkan untuk meniadakan proses pemilihan domain secara manual. Fitur sedemikian akan membantu dalam mempermudah penggunaan mesin translasi. Pengguna tidak perlu direpotkan untuk memilih domain terjemahan secara manual, terlebih bagi awam.
4
5
Kepada
praktisi
yang
berkecimpung
dalam
text
mining
dapat
menggunakan metode ini untuk memperoleh informasi terkait analisis domain pada suatu korpus. Penelitian juga diharapkan mampu memberikan manfaat pada bidang Ilmu Komputer, yakni berupa suatu metode atau pendekatan baru, membuka sudut pandang dan wawasan, dan sebagai referensi dalam penelitianpenelitian selanjutnya sehingga menghasilkan kontribusi yang bermanfaat terhadap perkembangan ilmu komputer terkhusus sistem cerdas, pengolahan bahasa alami dan berbagai aplikasinya.
1.6 Keaslian Penelitian Penelitian yang mengangkat topik klasifikasi teks memang telah banyak membahas dan telah dikembangkan berbagai metode-metode dalam menentukan nilai indeks domain. Namun, metode tersebut cenderung lebih ditujukan untuk pengklasifikasian semata. Tidak ditemukan teknik yang dikhususkan untuk mendukung proses translasi dan disambiguasi, terlebih yang multi-domain dan relasional. Penelitian-penelitian tersebut lebih berfokus pada set dengan domain spesifik dan dengan transfer statistik atau aturan, tanpa melibatkan variasi dan relasi dengan beragam domain (Delpech dkk, 2012). Penelitian-penelitian sebelumnya juga sama sekali belum spesifik mengangkat riset dan penggunaan pola hubungan khusus topologi taksonomi dalam bidang keilmuan. Selain itu, belum ditemukan satupun penelitian yang mencoba menggunakan rasio emas sebagai pola sebaran/propagasi ideal dalam perelasian domain secara seragam dan terpola secara adaptif. Teknik
terdahulu
penyebaran/pembobotan
seperti
(diilustrasikan
yang
dipakai
pada
Gambar
dalam 1.1a)
proses cenderung
menggunakan susunan hirarki dengan percabangan selektif. Distribusi propagasi atau penyeleksiannya dari atas ke bawah (top-down approach). Seleksi dilakukan dengan cara menyebarkan pembobotan atau perambatan yang menurun ke anak. Anak terujung dari node merupakan kandidat domain. Pemilihan bobot
5
6
propagasinya juga ditentukan secara berbeda-beda atau tidak terdapatnya keseragaman aturan. Perbedaan pada pendekatan yang dibuat penulis yaitu menggunakan topologi taksonomi dimana seluruh node dapat menjadi kandidat. Metode ini memiliki pusat sebaran relatif. Tiap node mampu menjadi pusat sebaran (dilustrasikan oleh Gambar 1.1b). Distribusi bobot propagasi memiliki pola seragam dan adaptif baik ke atas (parent), ke atas (child), atau ke node-node lainnya yang berelasi. Node dengan nilai indeks terbesar tetap dapat dimanfaatkan sebagai klasifikasi.
(a)
(b)
Gambar 1.1 Pola sebaran dalam struktur pohon. (a) pendekatan top-down, (b) pendekatan mix dipadu graf Perbedaan berikutnya, pendekatan atau metode yang dibuat penulis didesain
untuk
mendukung
perangkingan
yang
relasional.
Ilustrasi
perbandingannya dapat dilihat pada Gambar 1.2. Metode yang dibuat penulis dirancang agar mampu menghasilkan urutan domain berdasarkan keterkaitannya dengan domain utama atau domain lain yang saling berkaitan setelah melalui proses perangkingan (Gambar 1.2b). Sedangkan, pendekatan yang lain umumnya tidak membentuk urutan yang berketerkaitan dengan domain utama atau yang memiliki relasi setelah dirangkingkan (Gambar 1.2a).
6
7
Domain
Domain
Perangkingan
Business
Business
Physics
Anthropology
Physics
Anthropology
Geography
Mathematics
Perangkingan
Mathematics
Mathematics
Business
Geography
Geography
Physics
Physics
Statistics
Statistics
...
... (a)
Statistics
(b)
Gambar 1.2 Pola perangkingan multi-domain. (a) flat, (b) relasional
1.7 Metode Penelitian Tahap-tahap yang akan dilakukan dalam penelitian ini dilakukan melalui metode penelitian dalam beberapa tahap seperti berikut: -
Pengembangan konsep, rancang acuan dan metode penentuan nilai indeks Konsep dan metode penentuan/penghitungan nilai indeks dikembangkan dan dirancang sesuai kebutuhan dan analisa yang selengkapnya dijabarkan pada sub-bab dalam Dasar Teori.
-
Pengembangan representasi pengetahuan (knowledge representation). Represetasi pengetahuan merupakan penyimbolan untuk memfasilitasi inferensi dari elemen pengetahuan yang menghasilkan elemen baru berdasarkan
pengetahuan
tersebut
(Martin,
2002).
Pengembangan
representasi pengetahuan ini merupakan bagian utama dalam perancangan sistem. -
Pengembangan tool pengindeks. Tool pengindeks mengimplementasi representasi pengetahuan, dan berdasarkan input teks dapat ditentukan indeks kedekatan domain yang
7
8
kelas-kelasnya telah didefinisikan sebelumnya. Pengklasifikasian ini didasarkan oleh metode Nearest Term Statistical Ratio (NTSR), Normalized Nearest Term Statistical Ratio (NNTSR), dan Topological Taxonomy Term Statistical Ratio (T3SR) yang berasal dari persamaan (3.5), (3.6), dan (3.9). -
Menggunakan tool pengindeks yang telah dibuat untuk pengujian. Tool pengindeks digunakan untuk memperoleh informasi dari korpus yang akan dipakai untuk penyusunan laporan. Informasi yang didapatkan nantinya adalah kelas domain, hitungan jumlah istilah, hitungan jumlah kata, dan nilai indeks sesuai metode masing-masing.
-
Penyusunan laporan hasil penelitian. Merupakan tahap akhir yang dilakukan dalam penelitian ini. Pada tahap ini akan dilakukan kajian dari hasil penelitian dan menyimpulkannya. Pembahasan berisi telaah hasil dari pola perangkingan dan porsi nilai indeks yang dihasilkan oleh tiap metode. Didasari oleh uji kelayakan tersebut, kemudian disimpulkan keunggulan atau kelemahan dari tiap metode yang telah diujikan.
1.8 Sistematika Penulisan Sistematika yang digunakan dalam penulisan ini adalah sebagai berikut: BAB I
Pendahuluan Bab ini menguraikan latar belakang permasalahan, perumusan masalah, batasan masalah, tujuan penelitian, maanfaat penelitian, keaslian penelitian, metode penelitian dan sistematika penulisan.
BAB II
Tinjauan Pustaka Tinjauan pustaka memuat kumpulan uraian sistematis terkait dan informasi hasil penelitian-penelitian sebelumnya untuk kemudian
8
9
menghubungkannya dengan masalah penelitian. Fakta-fakta yang dikemukakan diacu dari penelitian. BAB III
Landasan Teori Bab ini menguraikan teori-teori dasar yang berkaitan dengan penelitian yang kemudian dikembangkan menjadi konsep acuan dan rancangan. Landasan teori menjadi dasar bagi pemecahan masalah, yakni didasarkan oleh rumusan penyelesaian. Rumusan ini kemudian dipakai dalam perancangan sistem.
BAB IV
Perancangan Sistem Perancangan sistem berisi uraian dari rancangan prosedural serta rancangan basis data sebagai representasi pengetahuan yang akan digunakan sesuai keperluan penyelesaian yang diajukan. Desain menggunakan
pendekatan
beorientasi
objek
untuk
pengaplikasiannya. BAB V
Implementasi Berisi jelasan dari penerapan dan pelaksanaan berdasarkan desain yang telah disusun dalam perancangan sistem.
BAB VI
Hasil dan Pembahasan Berisi hasil dari penelitian dan disertai uraian pembahasannya yang ditinjau secara logis.
BAB VII
Kesimpulan dan Saran Memuat simpulan dari hasil penelitian yang telah dikerjakan serta saran-saran yang mungkin dikerjakan di masa mendatang.
9